真正意义上匿名化算法最早是在上世纪90年代中期开发出来的。这些算法一直使用了十至十五年,十分有效。但进入大数据时代后,一切都变了。每个人都在网上产生各类数据,而根据数据顺藤摸瓜,辨认出某个人的身份非常容易。大数据的时代里,匿名化似乎无法实现,但现在我们提出了一个新方法:将数据储存在安全架构中,对存取进行严格的管控。如果需要数据库里的信息,不能直接访问数据库,而必须下载一个专门的算法。算法经专人批准和运行后,既能获得许可在数据库里搜索并调取用户需要的信息。这种安全架构既能让科研人员、统计机构和企业充分利用大数据,同时又能给个人隐私提供强有力的保护。
Read this article in English | Français
巴黎创新评论——您在伦敦帝国理工学院担任计算机隐私研究小组的负责人,主要做什么方面的工作呢?
易夫-亚历山大•德蒙约耶——我们的科研主要围绕如何利用现有的解决方案,从技术层面上进行隐私保护,尤其是行为数据的保护,比如说手机信息、信用卡信息、网络搜索记录、以及ISP储存的上网浏览记录等。我们主要做两方面的研究,首先是数据的匿名化:研究数据匿名化究竟可以做到什么程度,并开发匿名破解算法。其次是研究数据分析:探索如何处理数据才能更好地理解人类、理解社会、理解大范围行为。大数据让我们可以从一个前所未有的高视角,进一步了解人类。
您在研究中解释了数据匿名化过程的局限性。具体有哪些局限性?
一直以来,人们都会对数据采取匿名化措施,以确保数据在为各类研究服务时,相关人员的隐私能得到保护。比如说,人口调查的信息匿名化后,提供给汤玛斯·皮凯蒂等经济学家或者医疗科研人员进行分析,同时又能保证受调查人员的隐私得到保护。匿名化算法最早是在上世纪90年代中期开发出来的。这些算法一直使用了十至十五年,十分有效。但进入大数据这一新时代后,一切都变了。在大数据时代,需要保护的数据类型越来越多,也越来越敏感,包括个人访问过的网站记录、手机连接过的基站、以及信用卡消费过的地点等,而不像过去仅限于出生日期、年龄、收入等人口普查信息等。每个人上网,都会留下清晰的痕迹。而研究显示,利用这些痕迹,可以轻而易举地辨认出一个人的身份。比如说,我们通过对手机通讯数据库的研究发现,在95%的情况中,只需要4组时间+地点数据就能够识别某一个用户的真实身份。
为了给数据提供更可靠的保护,增加身份辨认的难度,人们发明出了一系列新技术,包括在数据中引入“噪音”或者人为降低信息的准确度,但是事实上这些技术没把难度提高多少。只要多收集几个数据点,一般就能准确无误地辨认出任何一个用户的真实身份。手机通讯数据库、信用卡数据、还有上网搜索数据都能做到这一点。去年某公司购买了大量据说已经过匿名化处理的某浏览器数据,但后来有人研究这些数据,居然发现了某个德国法官上网爱看的色情内容种类。所以说,虽然这些匿名化手段过去用起来没问题,但在大数据的今天,在每个人的网上行为每天可能会被记录数十万次的今天,这些手段已经不能再提供任何保证了。
这是否意味着我们要从此放弃使用大数据,不再挖掘其潜力呢?
和其他人不一样,我们不认为应该就此禁止所有的数据收集。从我们的角度看来,停止对数据的应用,社会是不可能接受的。但同时,现有的匿名化措施存在很大的漏洞,想要识别一个人的身份实在太容易了。我们认为必须找到一个合理的出路,在保证个人隐私安全的同时,允许大数据的充分利用,因为毕竟大数据的使用有着不小的积极意义。在英格兰我们提出的方案是:维持现有的基本原则不变,但同时将所有的数据储存在安全架构中,对数据的访问进行控制,而不是像过去一样,允许匿名化数据库所有内容的分享(匿名化数据库指其中数据经过加噪处理、局部修改、或者删除部分个人信息的库)。同时,方案还包含一系列措施,确保访问数据库的人的实际行为和先前声明的使用目的相吻合。我们不允许用户直接访问数据库,而是要求他们下载一个专门的算法。算法经我们批准和运行后,才能获得许可在数据库里搜索获取用户需要的信息。算法搜出来的结果我们会进行加噪,并以特定的方式组构,确保无法从中识别出任何个人信息,然后才最终返回给用户。这种方案相当于化“信息匿名化”为“信息使用匿名化”。我们的安全架构既能让科研人员、统计机构和企业充分利用大数据,同时又能给个人隐私提供强有力的保护。
您能否跟我们分享一些具体的例子?
以法国国家统计局(INSEE)为例:他们发起了家庭消费篮子研究项目,希望获得银行客户的信息。按照传统的方法,银行会将大型数据库发送给统计局,其中包含如下加噪信息:隐去的用户姓名,信用卡号,邮编而非地址。但问题在于这样的数据质量很低,而且我们已经介绍过,接受方还是能根据数据识别用户身份。但是,如果使用新方法,数据还是由银行保存,但法国国家统计局可以通过安全架构发送脚本来计算所需数据信息。例如,该脚本可以确定消费者在食品店的消费金额,计算其在总支出中的占比,然后进行数据汇总,比如在A地区,食物消费占总收入的12%,B地区的比例则是16%。这一机制可以确保统计局在任何研究项目中都无法根据数据识别用户身份。
那么就绝对无法识别用户身份了吗?
如果采用这种方法,用户身份被识别的可能性极低。但就像银行采取的安全措施一样,你无法杜绝抢银行事件,但可以让抢银行变得极端困难,而且更重要的是,变得非法。我们在OPAL项目中采取了法律合同、法律规制等措施来保障用户匿名。另外,数据本身是绝不共享的。总而言之,这比过去的匿名方法安全得多。我们甚至采用了双重假名的机制,也就是说数据送达平台时,赋予第一个假名,使用算法分析数据时,再赋予第二个假名。这样,即便算法两次提出同一个问题,得到的用户假名和关联也不会相同。
这种新方法受欢迎吗?
很受欢迎。万事达(Mastercard)全球的信用卡数据都采用了这个方法。优步也在城市交通数据发布平台Uber Movement中使用了这个方法。法国的安全数据访问中心(CASD)也在使用受控的数据访问模式,但他们的系统自动化比不上万事达、优步的系统,甚至比不上我们的系统,主要原因就是他们处理的数据太复杂了。我们正在做的OPAL项目汇聚了公有、私有部门和学术领域的合作伙伴,其中就包括业界先驱法国Orange公司、西班牙电信(Telefonica)和麻省理工大学(MIT)。我们有安全架构和全透明的机制,能充分保障数据隐私。我们还希望一年内能推出初步模型,这个研究时间还是比较短的。模型将服务于国家数据统计机构,即拥有国家数据统计人才的独立机构。
建造这样的安全架构有哪些技术障碍?
主要有两大挑战。首先是研究的问题,差异性隐私仍然还太理论化,而它应该是能保护隐私并且切实可用的。第二个问题是任何复杂项目的开发筹资都会遇到的:建立这样的安全系统需要不同领域的专业知识,而且创新项目的融资也比传统研究项目融资难。
这个系统是否符合GDPR,也就是将于2018年5月25日在所有欧盟成员国生效的《通用数据保护条例》?
我们还在等确认信息,但几乎可以肯定答案是“符合”。这种方法完美地在使用大数据(包括为了公共利益使用大数据)和保护用户隐私之间找到了平衡。
为什么要达成这样的平衡?
有了大数据,做很多事都如虎添翼,比如处理公共数据、开展公共卫生研究、进行城市规划等……它的应用前景非常广阔,比如基于流动数据对传染病的扩散进行研究,分析居民位移从而更好地进行交通规划、道路设计等。这将为改善公共政策提供无限可能。