联邦学习如何破解数据协作与隐私合规难题

发布时间：2021-09-26 17:09所属平台：学报论文发表咨询网浏览：次

2016～2020年，我国数字经济总体规模不断扩大，从2016年的22.4万亿元跃升至2020年的41.4万亿元。数字化浪潮奔腾而来，作为其基石与核心的数据逐渐成为一种重要生产要素，数据是宝贵的资产、数据是未来的新石油这样的说法随着数字化成为趋势，在这几年中被反

　　2016～2020年，我国数字经济总体规模不断扩大，从2016年的22.4万亿元跃升至2020年的41.4万亿元‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。 “数字化”浪潮奔腾而来，作为其基石与核心的数据逐渐成为一种重要生产要素，“数据是宝贵的资产”、“数据是未来的新石油”这样的说法随着数字化成为趋势，在这几年中被反复提及‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。

数字经济论文

　　包括网页搜索浏览记录、购物记录、地理位置信息等在内的互联网生活痕迹，以及各式各样传感器完成的数据采集，飞速增长的数据提升了信息的精确性，为更精准的洞察、更高效的消费体验与更大的商业利益提供了可能性‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。

　　但虚拟数据世界的扩张也同时为现实生活中的个人隐私带来风险。个人信息泄露可能引发的骚扰电话、垃圾短信以及财产损失，使得近年来消费者的个人信息保护意识明显提升。就监管层面，从《网络安全法》《个人信息安全规范》，再到App专项治理行动、《民法典》，政府对于数据隐私的监管日渐趋严。对企业而言，同样面临着数据合规要求下数据来源合法性、数据安全、隐私保护等系列风险和隐患。

　　如何在保障个人数据隐私的前提下推进数据协作，破解“数据孤岛”、被头部互联网玩家控制的“围墙花园”的问题，创略科技创始人及CEO胡世杰认为，联邦学习这项新兴技术将有助于更好地发挥数据的潜力。

　　AI联邦学习，鱼与熊掌何以兼得

　　对于联邦学习的理解，胡世杰以一句话将其简要概括为，兼顾数据合作与隐私保护的去中心化协作机器学习技术。

　　将联邦学习与传统AI作对比可以帮助我们更好地理解这项新技术。传统的中心化AI往往是把所有的数据汇聚到一个云或者数据中心，基于处理后的数据进行大量的计算，产出预测，从而运用到具体的应用场景中。联邦学习从某种意义上而言正好相反，AI本身在参与方自己的设备、数据中心，或边缘上去产出计算结果，利用本地数据训练模型，将需要更新的参数同步回到一个中心节点，在平均其模型结果后，再将新的训练模型分发给各个不同的参与者。在联邦学习的机制下，参与者不需要牺牲底层数据隐私，就可以同时实现比较大规模的AI、机器学习的应用场景。

　　“运用联邦学习技术的参与者可以是企业，也可以是个人，个人和企业意味着不同的参与者数量。比如说医院需要建立一个联盟，数量上可能是20家，或者全国范围内的总数，它们作为参与者加入后才能做一个联盟化的机器学习，但不必牺牲自己的隐私数据。如果是个人作为参与者的情况，一部分的AI可以实现在自己的手机上去操作完成，再将学习后需要更新的参数在整个网络上同步，同样能达到保护个人隐私信息的目的。 ”胡世杰在访谈中介绍道。

　　区块链+联邦学习

　　在联邦学习的场景中，每个参与者基于去中心化的分布系统，通过共享一部分数据来进行有效的机器学习，而这仍然需要以数据安全得到保障、参与方之间互相信任、机制透明为前提。

　　谈及区块链机制如何与联邦学习融合产生价值，胡世杰表示，中心化AI一般由某一方主导完成，例如投放微信广告，企业的投放数据、消费者的数据，都是汇总到腾讯方，然后腾讯基于其数据体量与模型去实现个性化推送广告、信息流等。但在联邦学习的场景下，可能没有一个中心方去管理这个过程，它可能就是各个参与方、几家企业，或三方之间的事情。在这种参与方自行管理的情况下，将区块链技术融合在联邦学习的场景内，可以提升联邦学习的透明度，实现多方信任与数据认证，真正做到联邦学习的去中心化管理。

　　“比如一个金融场景下的联邦学习联盟，可能有跨银行的10个参与者或者15个参与者，其目的都是为了加强各方关于客户的洞察。如果有一方出于损害竞争对手的目的，特意上传一些伪造、有疑问，又或是不干净的数据到这个共享模式里，就会对整体的洞察造成破坏，影响原本正确的模型判断。在这种情况下，如果用区块链技术来做一个类似联盟是否同意每一方数据质量的投票机制，就能更好地减少作假，提升机器学习准确度。 ”

　　以深度洞察驱动全局营销

　　为了打破企业间的数据孤岛，提升企业AI效能，胡世杰介绍，创略科技在2019年就开始研究去中心化AI技术，一方面是联邦学习，一方面是隐私计算，并挖掘其在全局营销大场景下的价值。

　　很多行业的B to C企业，可以基于自身第一方的私域数据体量，通过数据分析与沉淀来获得有关客户的标签洞察。但在有限的私域数据之外的洞察，要么是缺乏渠道，要么是需要购买第三方数据，再经过ID匹配后获取更多数据洞察。通过这样的方式获得的市场用户洞察存在显而易见的缺陷，一方面是私域数据的体量不足以支撑得出深度分析结果，浅尝辄止; 另一方面是第三方的数据来源及准确性难以保证。

　　基于联邦学习不需要分享数据本身，也能完成机器学习目标的优势，创略科技将联邦学习应用在营销场景，帮助企业实现私域数据以外的全面洞察。

　　“如餐饮、旅游、金融等B to C领域，如果企业的体量足够大，彼此间的客户群体势必会出现部分重叠，而基于重叠的群体，企业可以不牺牲自身数据，而选择加入一个企业联盟，用联邦学习获取其他企业的客户洞察。举例来说，一家航空公司的客户在咖啡馆消费的部分行为是能获取的，假如通过联邦学习获得对消费者更全面的洞察，参与的这些企业将都能互相增值。如果想要进一步合作，则可以通过区块链的学习，针对重叠用户群体获取一定的交叉销售机会。 ”

　　对于企业而言，联邦学习可以帮助获得对消费者更全面的洞察，更大程度发挥数据价值，助力企业经营; 同时其具备的隐私安全性将进一步保护消费者个人隐私信息，也使得对数据的运用更合规，符合政府监管的要求。

　　从“数据孤岛”走向联通共荣

　　为什么要发展联邦学习这项技术? 在胡世杰看来，除了能在全局营销上发挥显著作用，联邦学习对于当前商业格局的发展同样将产生深远影响。

　　横向来看，当前的互联网模式呈现出中心化的发展体系，当一个中心化的体系达到固定规模后，从数据体量角度而言，就如同马太效应，占据主导地位的主体优势会越来越大，导致第三方参与其中的难度增加。联邦学习技术的发展对现有局面具备一定的颠覆性，当技术发展得更为成熟，落地到更多具体的应用场景，将促成多方自主协作而不必对单一主体产生依赖。

　　大数据论文范例：人工智能和大数据交叉领域的思考

　　纵向而言，联邦学习减少了数据暴露风险的规模与程度，这适应于智能设备与物联网普及的大趋势，当设备的计算更多集中在本身和边缘计算，数据没必要再汇总到一个主机房，对降低成本、提升设备性能将产生积极影响。

　　避免隐私成为数据，让数据发挥更大的价值，联邦学习作为一项重要的新技术方向，在打破数据孤岛、走向联通共荣上有着巨大的潜力，随着智能设备与物联网的普及，联邦学习将获得发挥更大价值的发展空间。

转载请注明来源。原文地址：http://www.xuebaoqk.com/xblw/6942.html

《联邦学习如何破解数据协作与隐私合规难题》

上一篇：古代朝鲜半岛的音乐家研究以三位“乐圣”为代表
下一篇：让“无障碍电影”惠及更多视听障碍者

联邦学习如何破解数据协作与隐私合规难题

学报论文发表期刊

热点学报

学报问题

热点问题