一些机构与我们存在数据关联,它们对我们的选择行为感兴趣,并试图预测、引导我们的选择。这些算法掌握并影响着我们的选择,我们对其所依据标准却几乎无从掌控、无从知晓。那么,如何重获控制权?
Read this article in English | Français
随着大数据技术的发展,各类算法对数据流加以运用,并在个人抉择过程中发挥着越来越决定性的作用。就此断言我们已为这些算法所操纵,这未免太过危言耸听。可这些算法确实也在左右我们的众多抉择,无论是选择酒店、机票乃至出行路线,还是挑选在线图书,亦或是通过社交网络结交朋友。
除了利于我们做抉择,促成我们做抉择,这些算法还以其特有的方式参与着社会生活的构建。这种算法“力量”正悄然显现,它主要依托于原始数据。这样的力量具有前所未有的能力,可触及人们生活最私密的角落。即便是广布密探与耳目的极权政权,也未敢奢想掌握这种权力。
通过大规模的数据运用,个性化资讯才得以生成。在对可能性进行预测的基础上,这些资讯“有利于”我们的选择行为——这种论调多少有些囫囵不清。一些机构与我们存在数据关联,它们对我们的选择行为感兴趣,并试图预测、引导我们的选择。这些算法掌握并影响着我们的选择,我们对其所依据标准却几乎无从掌控、无从知晓。
如何重获控制权呢?有一种思路颇具意味,那就是设计并建立某种模式,以适于分析、理解并处理这些海量的复杂数据,亦即一种伦理化模式。
数据伦理化的前提:算法原理
在此我们需要予以澄清。这不是要抑制大数据的蓬勃发展,而是使我们的生活尽量不受制于盲目理性,也不单纯地屈从于市场的客观需要。问题的核心也不在于构建某种两全模式,得以既合乎常情,又顺应大数据的巨大潜力。
不过,鉴于数据挖掘的原理,构建针对复杂数据的伦理化模式是完全可行的。这是因为,作为大数据核心的归纳算法,其所依赖的逻辑与作为伦理道德核心的“实践智慧”竟然是惊人地相似。
在日常生活中,人类收集数据,阐释信息,与记忆中的知识建立联系,并掌握在日后可被反复运用的种种能力。由此,人类获得了一种“实践智慧”,亦即行为的艺术;同样在“伦理道德”中,这种所谓的“实践智慧”也可以得以形成并完善。
数据挖掘算法所依赖的逻辑与人类日常行为所反映的逻辑,两者十分接近。它们都属于归纳式、而非演绎式的逻辑。大数据算法的设计初衷不在于推理论证,并获得无可争辩的结论;它不是数学运算。运行这种算法所依据的局部、不完全且尚未结构化的数据,并不足以支撑论证过程。这种算法其实是对重复性动作的辨认,对行为线索、行为模式的识别。例如,在亚马逊网,它们会发现某类图书的读者很可能对另一类图书也感兴趣。这些算法收集数据,将数据聚合为信息,对信息加以阐释,并与记忆中的知识建立联系,由此提供精简过的选择范围,而这些选择又导向实用结果。
无论就人类行为而言,还是就数据算法而言,关键的节点都在于“化简”,即将复杂的原始数据转化为实用信息的过程。在上述亚马逊的例子中,这意味着不去向科幻小说的爱好者推荐人类学著作。在这个关键的化简环节,复杂数据的伦理化模型应试图去维护并开发这种辨识力。
在此,我们要遵循两条必要的原则。首先,所谓“信息”通过某种系统性框架与行动相联系。信息聚合为知识,这种知识又是一种实践性知识,在行动中得以确认。与其说它是知识,不如说它是对知识的实践。
第二条原则直接来自于信息科学理论。相较之数据处理,毋宁说数据状态描述。大数据伦理的关键也在于将紊乱且含混的复杂知识转化为结构性的简单知识,并导向某种最终实践。
数据伦理化的关键:数据分级
数据化简的决定性环节就是数据分级。数据分级可以“调控”算法,让其制造可用结果。数据分级要求事先对数据价值进行考量,这通过一系列的设问完成:为何评估,出于什么样的目的和目标?如何对某项数据或某条信息的价值进行评估,依据什么样的标准?确切地说,我们到底应该评估什么?
我们可以从某项数据的具体内容来评估其价值:比如,点击一次表示有人喜欢,有人朝某个方向前进或返回,或有人打算支付。我们还可以从冗余度、差异性和数量角度对某项数据的价值进行评估。数据的价值也取决于知识整体:某些数据对认知贡献较少,而另一些数据则对认知意义更大。最后,我们可以在数据分享的层面,也就是从数据交换的质与量对数据的价值进行评估。
数据的价值还与它为用户所提供的服务有关。对信息的评估就是确定信息的传播策略,即在适当的时机提供适当的信息,根据客户的兴趣与需求有选择性地推送信息,从而杜绝误导性信息和信息泛滥。
因此,系统设计者必须要确定,向用户提供什么数据、提供多少信息。用户需要哪些数据,才可以“良好地”决策,并“良好地”行动呢?为了在信息系统内部实现数据改进与数据过量之间的均衡,两种变量可以对数据分级和数据拣选功能实行优化。
第一种是指对所有层级数据进行的反复评估,但这种再评估太过频繁的话,来回传输所引起的数据过载,就会抵消再评估所带来的好处。第二种是指最小存储单位所包含、管理和等待移动的数据量,量过大也会导致分级变得复杂且缓慢。
这种对数据加以分级并评估的工作至关重要。伦理的因素也是在这个环节被引入。接下来我们研究一个颇为敏感的实例:医疗数据。
伦理化分析的实例:医疗数据
医疗数据可谓是两方面利益的边界:作为病患隐私,医疗数据应当得到保护;作为流行病统计资料,医疗数据又对全人类有用。如何弄清这两种因素呢?在四点原则基础上,我们可以建立一套伦理化的方法。在其相关著作《生物医学伦理原则》中,Tom Beauchamp和James Childress确立了这四点原则。
第一,善意性原则,也就是对他人福利的贡献。善意性行为要符合两点具体规定,即善意性行为一要有益,二要有用,表现为正成本效益。第二,自主性原则,也就是每个人为自己设定行为准则。根据这条原则,病患必须参与到决策过程中。第三,非恶意性原则,也就是说,针对那些我们理应对其履职尽责的人,避免对其行恶,避免使其遭受无谓的损害与痛苦。第四,公正性原则,也就是说,全体病患分享可用资源(时间、金钱、能源)。这条原则又与平等、公平的概念紧密相联,平等与公平牵涉公正性决策的过程。理想的状态是,任何行为都应趋向完全平等,但根据不同状况与个人,公平通常是为确立行动的某种优先次序或等级而被强调。
设计良好的医疗数据拣选过程可满足上述四点伦理化原则的三条。
善意性原则体现为,向用户(医务工作者与民众)发布信息要适度,确保行为的恰当性与合理性。传播变得更高效。
自主性原则体现为,信息要清晰、准确、适当且容易理解,获得当事人的明确同意。病患有参与商议、决策且行动的权利。
非恶意性原则体现为,依据用户身份与性质对数据权限设限,提高数据安全性、保密性和数据保护。
这种选择性数据手段之于公正性原则,却存在反作用。针对不同用户,信息发送也不尽相同。系统为每个人设置特定的信息分配与信息获取规则。这样的信息不对称属于歧视性做法,对信息透明度也提出挑战。
依据数据被赋予的重要性,以及数据运用和发布所牵涉的问题,数据分级与数据拣选得以实现。通过对所发送的数据进行简化,数据的使用与访问变得更奏效,数据采集与数据安全也获得改善。不过,这种方法却造成较差的数据完整性。所以说,数据分级使各类用户的工作更轻松,却使信息系统设计者面临更大的技术挑战。
这种选择性数据分级在数据复杂度与可访问度两方面均发挥着重要作用。我们可视其为一种“组织性智能”。依据伦理化数据挖掘原则所构建的那些算法,其所生成的新信息,我们可称其为“伦理化信息”。经过伦理化评估预处理的信息,在其日后的运用中蕴含更大价值。
伦理在何时改进数据质量
这种方法对初始数据先分级再拣选,以数据和信息的量化损失为代价,却可改善知识的定性价值与熵值。同时,数据的自动选择性分级系统通过偏低的存储占用,根据用户的不同需求,自动地向对应的服务层级转移数据。
关于大数据技术核心即归纳算法所展开的相关工作,使上述方法被极好地予以阐释。唯一且放之四海皆准的归纳式解决方案并不存在。尽管如此,针对具体目的,可选方案的范围也会相对明确。恰如伦理化进程,表现最突出的归纳算法应该是不断演化的。依照最适宜的可行方案,这些算法调整其处理数据的方式,进而实现自我完善。为了构建这样的算法,数据处理必须具有预见性,且可发挥作用。为此,运用大数据,必须及早将数据转换为可用的伦理化信息。
在这样的大背景下,从伦理的视角,对选择性分级方案进行研究,有助于我们更好地理解数据可用性、数据保密性以及数据保护之间的不稳定均衡。根据特定情况,这种均衡时而会倒向这边,时而又倒向那边。数据拣选之前,这样的方法往往会向我们抛出一系列问题:这么做的目标、目的、关键、意义分别是什么?我要使用哪些数据?局部数据还是全部数据?我要如何使用这些数据?在哪?对哪些用户?更为宏观地讲,如何运用信息系统内所累积和存储的混杂数据?这种数据整体与我处境的相关性为何?这会不会造成原始信息价值的歪曲?最终信息的完整性可否得以保留?
技术解决不了所有问题。对个人信息及其私密性的保护,同时要依赖职业道德的约束与人们行为的自律。这就需要制定相应的道德守则,以规范对大数据中个人数据的设计、实施及运用。这同时又带出新问题:由什么机构或组织负责制定这样的守则,并推进“伦理化”算法的认证进程?(龚佳/编译)