数字化的持续推进使得数据已经成为经济和社会生活的中心。我们生成的数据越来越多,数据交换、数据安全和数据分析的手段也愈发成熟。数据经济学定义了这些操作的价值。政府和大企业纷纷出台数据政策。大数据作为一个全新产业如冉冉升起的新星,然而有关数据的本质尚无定论。卢西亚诺·佛罗利迪(Luciano Floridi)带领我们从哲学视角出发来重新审视数据的定义。
Read this article in English | Français
数据是什么?这个问题早在19世纪末就被提出,但长久以来一直被人们忽视。如今,数字技术的降临使我们不得不重新回答并阐释这一问题。当时有两派,一派强调要记录“意识的即刻数据”(柏格森);另一派强调用实验的方法对“客观”数据进行间接测量。
蒯因之后,科学的哲学很快抛弃了客观的伪装。但无论如何直到今天,所有关乎准确无误和现实主义的实践思维、一切的科学手段,其基础还是数据。
已知和未知
“数据”顾名思义,其意义既是外人赋予它的,也是它强加于人的。正因如此,它才能成为共同思考的基础,推动技术发展,制定公共政策,促进科学进步。无人不使用数据:工程师、经济学家、物理学家、植物学家、农学家、化学家······
数据是已知的领域,它带着我们去探索未知。
但就何为已知,各方须达成共识、表示认可。简单说来,这要求某种自我证明或是约定俗成,让共同反思的各方就什么是“已知”达成一致。数据,无论关乎科学、技术或是社会科学,提供的都是可解读的、站得住脚的事实。这些事实要么向公众开放,要么至少在承认其价值的使用者社群里共享。
从这个角度来说,定量数据相较定性数据有一个难以辩驳的优势——就数字达成一致比较容易,就性质达成一致比较难。正因如此,现代科学和工程寻求量化指标,用数字来描述事物属性。比如灰色不再是一种介于黑白之间的颜色,而是25%或是70%的黑色。任何图像都能被分割成像素,而任何一个像素都有带有数字价值,其范围介于红外线和紫外线之间。
因此,所谓的世界的数字化不仅仅意味着所有的传输信号都可以用0和1表示,而是说在全球范围内,我们所能感知的世界——包括人类——都被转化成了数据序列。这一转化始于现代之初,而当今我们正在经历这一进程的加速。
这种加速还带来了另一个变化,那就是它把分析学变成了推测学。过去对于原理机制一丝不苟而又严格缜密的推断被通过数据挖掘带来的对于统计规律的事后揭示所取代。这场刚刚才开始的革命可以被看作归纳思维对于演绎思维的胜利。在越来越多的领域,知识的基础是从海量数据中提取出来的相关性。人们不再试图证明规律,而只是观察规律的表征。
统计数据和算法成了知识以及决策的基本工具。
这是一场革命,其驱动力是存储在巨型数据存储中心的海量数据。既然我们所有人都身处其中,就不得不审视这些数据及其重要性。第一个问题,很简单但也很根本:数据和信息有何区别?
信息原子
二者之间的差异很重要,也是事实——知识这一链条的组成部分。
瑞典皇家理工学院的哲学教授斯文·奥维·汉森(Sven Ove Hansson)在他2002年的一篇文章中曾经这样总结过数据、信息和知识的差别:“数据有别于信息,因其吸收不需要借助某一特定形式。比方说,如果我现在不读这本(社会学的)书,而是读这本书基于的几万份调查问卷,那么我读的就是数据而非信息。简单说来,数据要能被处理才能成为信息,要能被吸收才能成为知识。”
事实上,汉森谈及的数据、信息和知识之间的差别罗杰·波恩(Roger Bohn)早在1994年的一期《斯隆管理评论》中就有阐述。数据来自传感器,衡量任意指定变量的价值。如果按照特定结构组织起来,数据就成了信息,在特定情境下,这些信息持之有故。知识更进一步:知识帮助人做出预测、建立因果关系或者做出决策。
价值来自知识。但是正如波恩所说,相较于信息,存储、描述、处理信息更容易。那么数据是否也是如此呢?
如果光看数值,答案是肯定的:一份数据其实就像是一个信息原子,是特定时间内和空间中的一个最小测量单位。简单说来,它可以用0或1来表示。
从哲学角度看,描述数据比描述信息更容易。数据的概念更简单、挑战性也更小。一份数据是对于一个事实最直接、最如实的表达。但是数据不等于事实;它只是人类为定义一个事实所用的最小观察单位。
要说数据是完全客观的、不带任何意图或投射,那是痴人说梦。一个现象可以测量的方面众多,偏偏选择测量某一特定变量,而不是另外一个变量,这种选择本身已经规定了你想要知道的现实。
但一般由传感器生成的数据还是在两个方面体现出了客观性:第一是数据里包含的极少量的信息;二是其他传感器的存在(这些传感器更好的帮助再现对于某一现象的观察,比方说要了解你车的右前轮的状态,可以收集它的热度、震动、气压、年龄、使用年限等等数据,你的车载电脑就能通过这些参数提供高度可靠的信息)。
数据的语义定义
前述讨论也可以反过来看。一方面,它们强迫我们做出选择、过滤数据,来重建一个简化的现实。
另一方面,对于客观性的追求、传感器的无处不在以及收集的数据的指数性增长预示着这样一个科学幻想——现象的全方位再现、世界的绝对数字化。科学后果:研究某块骨头的病理时,我们使用来自10万名患者的10万组极其完整的数据。我们有了前所未有的机会去理解一个现象,或者至少完整记录这一现象,没有任何遗漏。深入到日常:连接的人类。每秒钟传感器都分析着你的血压;你在宇宙中的位置不断被捕捉。你也经历了转变,成了数据生成者,而且生成的量越来越大。最终,这些数据价值几何呢?换句话说,数据怎么样才能成为事实——信息——知识这一链条的一部分呢?
把数据理解成信息的原子的理论局限性就在于它无法解释这一转变的方方面面。而牛津互联网学院(Oxford Internet Insititue)的哲学教授和研究主任卢西亚诺·佛罗利迪(Luciano Floridi)看待该问题的角度打破了这种局限性。
他对于以数据为基础来定义信息是否可行提出了质疑。换句话说,他通过问“什么使得数据能够产生信息?”来怀疑数据的语义定义。
首先,他采用了一个十分严谨的数据定义:“数据是在某一情境下有关差异或统一性缺乏的推定事实”。
这一现实架构中的差异在特定条件下使得信息成为可能。佛罗利迪提出了三个先决条件:1)要求一份或更多数据;2)这些数据必须是可取的,即它们必须是根据特定规则组合起来的;3)这些数据是有意义的,即可以通过不同方式去阐释、翻译或表达。
由此,数据可以被定义为一个关系实体,这是其十分关键的一个特点。
要理解这一特点,我们可以看看佛罗利迪的理论是如何阐明“差异”和“统一性缺乏”这两个概念的。根据佛罗利迪,这两个概念涉及希腊人所说的“diaphora”,即缺口。他提出了“数据的缺口定义”,适用于三个层面。
第一层,数据可以被定义为“diaphora de re”,即现实中统一性之缺乏。对于“自然界里的数据”目前并无标准说法。一种叫法是把数据称作“dedomen”(这是英文词数据data的古希腊文翻译)。此外应该注意到,从词源的角度来说,数据的拉丁文中是“datum”,其最早出现在欧几里得的一本名叫Dedomena的作品的译本里。人不能直接认识数据,而是通过经验推断出来。
佛罗利迪解释说,“dedomena”是纯粹的数据或是原型认识论数据,即还未从认识论的角度被解读过的数据。作为“现实架构中的断裂”,人们既无法接近它们,也不能抽象地对其进行独立的阐释,也无法从认识论的角度去体会它们;其存在是凭经验推导出来的(也是经验要求的)。
除了原型认识论数据,数据还是两种物理状态间的“diaphora de signo”,即统一性之缺乏:一个电池不同的电量,一通电话的电信号或者摩尔斯电码的一个点。
最后一个层面,数据是“diaphora de dicto”,即两个符号间统一性之缺乏,比如拉丁字母表里的A和B。
“diaphora”这一概念提纲挈领的提出了数据的三个层面,它指出了一种分歧:事物开始产生差异的时刻;我们需为这一差异寻找意义。数据是象征性实体,它将这种差异符号化,它的两端,一头是(很容易被称作无关紧要的)差异,另一头是意义。最终,数据是一个临界点,从这里开始,无关紧要变得举足轻重。