隐私安全之变|安全合规大势所趋,隐私计算将蓬勃发展
2021-12-03 17:44 隐私

在所有的关系中,个人都首先是他自己,是一个独立的有自主能力的个体,我们不能随意侵犯另一个人的个人空间。隐私无关道德、无关对错,它是一个关乎人格尊严的边界设定。

前段时间一直很忙,现在终于挤出点时间和大家再次分享隐私安全的话题,这是隐私之变系列的第四期,是关于“隐私合规与隐私计算”的一些思考。

第一期:隐私安全之变|“个保法”划定边界,移动营销的瓶颈与未来

第二期:隐私安全之变 | 《个人信息保护法》简单解读

第三期:隐私安全之变|“精准营销”将死,互联网营销将何去何从?

《隐私之变系列四|安全合规大势所趋,隐私计算将蓬勃发展》

随着国家对数据安全的越发重视,民众对隐私保护意识的越发觉醒,越来越多的整改事件将会随即发生,无数不合规的小APP厂商将会在市场上逐渐消失,多如牛毛侵犯个人隐私数据倒买倒卖的中间商也随即消亡。只有那些充分重视个人隐私安全,维护国家法律法规的企业才会有持续健康的发展。

那么,在隐私安全日益重要的情况下,面对海量的个人数据,企业应该怎样做,既能守护好个人隐私,又能充分挖掘数据的价值呢?“隐私计算”给了我们一个很好的答案。

简单来说,隐私计算就是通过使用加密方法来处理用户隐私数据。在技术方面,“隐私计算”包括三个方向:1、多方安全计算;2、联邦学习;3、可信执行环境。

“隐私计算”的核心是能够实现“数据可用不可见、相逢不相识”、“数据不动模型动”,兼顾隐私保护和数据安全合规,也能帮助企业在最新的行业规则下,更好地挖掘数据价值。

一、隐私计算分类

(1)多方安全计算

多方安全计算(Secure Multi-Party Computation),MPC 由姚期智在1982 年提出,指参与者在不泄露各自隐私的情况下,利用隐私数据参与保密计算,共同完成某项指定的计算任务。

上面的定义有点专业,我用更简单的话来说,就是“一堆人,谁都不想泄露隐私,但要完成一个任务,比如几个有钱人,不想别人知道自己有多少钱,但还想比试一下谁更有钱”。怎么比,就需要用到加密技术,来进行比较。

该技术能够满足人们利用隐私数据进行保密计算的需求,有效解决数据的“保密性”和“共享性”之间的矛盾。多方安全计算包括多个技术分支,目前,在MPC 领域,主要用到的是技术是秘密共享、不经意传输、混淆电路、同态加密、零知识证明等关键技术。

(2)联邦学习

联邦学习最早在 2016 年由谷歌提出,原本用于解决安卓手机终端用户在本地更新模型的问题;联邦学习的本质上是一种分布式机器学习技术,或机器学习框架。目标是在保证数据隐私安全及合法合规的基础上,实现共同建模,提升AI模型的效果。

联邦学习和多方安全计算既有共同点也有区别。双方场景有共同点,比如涉及多方数据的联合计算,但多方安全计算不限定是机器学习建模,也可以进行统计分析或者简单的比大小等;‍‍另一方面,二者密切相关,很多时候联邦学习的方案用到了多方‍‍安全计算来保护数据隐私,不过,联邦学习也可以不使用多方安全计算,可以用更简单的加密方法牺牲隐私保护的程度换取性能提升。

(3)可信执行环境

可信执行环境(TEE,Trusted Execution Environment) 是Global Platform(GP)提出的概念。是通过CPU专属区域为数据和代码执行提供一个更安全的空间,目前有代表性的包括IntelSGX、ARMTrustzone。

TEE具有其自身的执行空间,比Rich OS的安全级别更高,但是比起安全元素(SE,通常是智能卡)的安全性要低一些。TEE能够满足大多数应用的安全需求。从成本上看,TEE提供了安全和成本的平衡。

二、隐私计算在营销行业的应用

隐私计算应用的范围非常的广,包括金融、医疗、电商等行业,由于本人所关注的互联网营销行业,我在这里只讨论隐私计算在营销行业怎么应用。

隐私计算让参与各方可以在不披露底层数据和底层数据的加密(混淆)形态的前提下共建模型。每个广告主业或者数据持有方不出本地,通过加密机制下的参数交换方式,就能在符合各项隐私安全法律、法规的情况下,建立出虚拟的共有模型,串联一个个“数据孤岛”,因此,隐私计算可以在多个广告营销场景中使用,比如流量反作弊、精准营销(精准拉新、精准促活)、联合归因、用户分析、用户核验等。

(1)流量反作弊

在流量反作弊的过程中,我们需要用各种各样的数据和标签来构建用户画像。数据越详尽,往往越有利于广告主做出正确的投放判断,捕捉正确的“场景”,找到对的“人”。

而当前,用户对隐私问题空前关注,同步地,越来越严谨的立法监管,也在维护“数据安全”护航“数字经济”,在互联网广告营销的反作弊环节,我们可以采取隐私计算“联邦学习”的办法,高效并且合规、合法地识别流量质量。

联邦学习分为跨样例和跨特征两种模式,跨样例模式更多的是同构数据,而跨特征模式则更多的是异构数据。举个例子:不同电商之间的数据相对是同构的,属于跨样例模式。而互联网媒体平台A与互联网媒体平台B之间的数据则是异构的,属于跨特征模式。对于流量反欺诈来说,跨特征的异构数据非常重要。联邦学习反作弊可以联合电商、游戏、大数据公司等多方数据共同构建反作弊模型。

image.png

联合电商、游戏、大数据公司等多方数据共同构建反作弊模型

比如,某个用户在媒体A被判定为可疑用户也就是我们所说的“虚假流量”,广告主在媒体B投放广告时,是否对其进行广告曝光展示?尽管缺少该用户的相关数据,广告主可以通过联邦学习的方式进行建模,在无需查看用户隐私数据的条件下,对其进行多方计算,判断用户的真实情况,决定是否对其进行投放。从而实现流量反作弊,拒绝被黑产“薅羊毛”诈取营销预算。

顺便做个广告,智慧易构建净量引擎的平台,就是采用了这个架构,有效的解决了流量反作弊和电商反薅羊毛的问题,而且已经成功商业化,实际落地到应用场景。

(2) 精准营销   (精准拉新、精准促活)

在精准营销和用户促活方面,使用模型对本地数据进行处理之后,就可以得到某个消费者的消费特征,并判断其偏好和消费频次、强度等,以此来进行精准的广告投放。

“联邦学习”可以使多个媒体或广告主等互联网广告的链路、环节之间执行联邦学习,这是完全去中心化的过程。不管有没有主导方,参与者之间的信任度,透明度,以及参与机制都是重要且能得以保证的要素。其目标都为去中心化网络中增强节点之间的互信,实现保护“数据隐私”的同时。

image.png

基于联邦学习将广告平台数据和广告主数据安全融合

比如,电商A平台想在站外的一些营销场景中有获取用户,比如在某视频平台、某信息发布平台等,但是电商A平台并没有这些用户的信息,却又想要给在视频平台、信息发布平台的用户投放广告,这个时候,视频平台、信息发布平台不可能把用户的原始数据给到电商A,电商A在这种情况下就可以通过联邦学习的方法,对在站外想要触达却又没有原始数据的用户进行广告竞拍。

同理,可以作用在用户促活上,比如甲品牌的用户乙某,从渠道A而来,沉睡一段时间后,在渠道B活跃起来,但是没有再购买甲品牌的产品,这时候通过联邦学习的方式,广告主能够获知沉睡用户乙某目前在渠道B活跃,通过一些广告营销、活动营销的方式去促活用户乙某。

同时基于联邦学习的lookalike算法,可以实现精准扩量,基于媒体平台上各个广告形态,包括信息流量广告、联盟广告、开屏广告,可以获得用户在这些媒体上广告行为数据,获得用户媒体偏好数据,结合广告主数据标签,进行联邦lookalike算法实现跨平台精准扩量。

image.png

基于联邦lookalike算法实现跨平台精准扩量

隐私计算还可以进行联合归因、用户分析、用户核验等应用场景,在这里不再细说,找个时间,我会用更多的篇幅一一详细介绍。我们相信,隐私友好、合法合规、串联各个数据孤岛的隐私计算将会在互联网营销行业大放光彩。

结语:

安全合规大势所趋,隐私计算必将蓬勃发展,不过光有隐私计算,是否就能够根治现在互联网隐私安全的痛点?

我认为不是,实际上隐私计算只是“法”或者“术”的层面,而没有从“道”的层面解决掉,实际上我们互联网Web2.0存在根基上的问题,我们缺乏一个更加安全可靠的ID信任机制,无法保证运行在这个根基之上的互联网是安全可信的。这个问题如果不根治,那么许多的安全问题,就难以解决,各种方式和努力也都只是修修补补而已。如何根治最底层的ID体系,我们有两个方案来进行解决,具体是什么,在本系列的下一篇,我将阐述具体的方案。“自我主张时代变革,从构建WEB3.0的ID体系开始”

本文作者:Tim关涛

智慧易科技创始人&CEO

毕业于北京大学计算机系,硕士

*获工业和信息化部首个颁发的“PIPP数据保护官”认证、首个“GDPR个人数据隐私保护”EXIN认证;

*深耕广告流量反作弊、营销反欺诈领域十余年;

*曾任职腾讯等一线互联网企业,担任高级工程师、研发总经理、CTO等职位;

*10年+大数据、人工智能、搜索推荐、反欺诈、内容安全行业研发和管理经验,拥有10+国家级技术专利授权。