导语
截至2020年年初,据估计,现存数据总量已超过了44泽字节1(zettabyte),即440万亿亿字节,大约是人类可观测到的宇宙中恒星数量的40倍。到2025年,全世界每天产生的数据量将达到约463艾字节,相当于人类自古以来所说的全部话语总量的一百倍。随着越来越多的人懂得上网、越来越多的机器被连入网络,数据量正在经历指数级的增长,这一现象被一些行业专家称为“数据海啸”。我们可能无法理解数据的体量到底有多庞大,但毫无疑问,我们被淹没在了数据的海洋中。
然而,没有人明白数据到底是什么。虽然我们倾向于将数据视为事实或一些客观事实的抽象表现,并且自然而然地想到“数据不会说谎”的说法,但我们却很难找到一个恰当的比喻来形容数据在现代生活中的作用。“数据”这个词在历史中的应用及其演变也同样非常复杂。事实证明,我们从来没有真正能够就“数据是什么”或者“它在我们的文化中扮演着怎样的角色”等问题达成共识。
数据这种难以捉摸的特性使得围绕其建立共识或制定规范变得极其不易。然而目前,我们对新的先进数字技术的管理方法仍然主要以数据为中心,那些涉及隐私、安全和保密的法律和法规尤是如此。事实上,随着我们面临的由技术发展带来的挑战越来越多,我们似乎越发会将自己与数据联系在一起,数据既是问题本身,也是问题的解决方案。
正如我在本书中所说,这种以数据为中心的方法使我们处于危险之中,因为它偏离了数据保护的初衷——保护人本身。在接下来的章节中,我将努力解释我们面临的现状、我们是如何走到这一步的,以及我们下一步应该向何处发展。但首先,我还是要解答这个基本问题:数据是什么?
何为数据
如今,“数据”一词往往没有准确的定义,相反,我们总是借助他物对它进行间接描述,这一点不难从一系列隐喻中看出。一众隐喻中,将数据视作一种资产是最常见的一点。咨询公司剑桥分析前雇员布里塔尼·凯泽(Brittany Kaiser)虽然不是将数据比作资产的第一人,但他却因发起一项名为#拥有你的个人数据(#OwnYourData)的运动让这一观念得到了普及。凯泽本人也曾在2019年的电影《隐私大盗》(The Great Hack)中出演角色。
而自2018年剑桥分析丑闻曝光以来,将数据视为“什么”的说法更加多样。世界经济论坛早先发布的一份报告便指出,《经济学人》(Economist)曾在2019年发文称数据就是当今世界最有价值的资源,这也引发许多专家对数据进行了更多拓展性的比喻,如将其描述为新时代的石油、水源、空气,甚至是阳光。也有人将数据比作劳动力、货币、核废料,以及石棉等有毒物质。哈佛大学学者肖沙娜·祖博夫(Shoshana Zuboff)在自己的开创之作《监视资本主义时代》(The Age of Surveillance Capitalism)一书中,将数据定义为“监视资本主义(Surveillance Capitalism)产生的必要原料”。
然而,人工智能学者、微软研究院研究员、纽约大学 AI Now研究所联合创始人凯特·克劳福德(Kate Crawford)则在《人工智能图谱:权力、政治和人工智能的地球成本》(Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence)一书中谈到,将数据比作自然资源或者原材料的这种隐喻的手段,其实是有些机构在运用修辞策略刻意为之,旨在将数据抽象化、惰性化、独立化,而不是拉近数据与人的亲密关系。在克劳福德看来,以上观点有可取之处,“如果是从未经任何处理的原始材料中进行数据提取,数据提取则是合理的”。
从某些方面来看,数据既是一切,又什么也不是。数据依靠语境,并呈动态变化,因此很难被定义。人们试图规范数据,其实就和人们试图管控技术一样,都是徒劳无功的。
数据的历史渊源
从词源上看,数据的英文data一词来源于拉丁语的datum,意思是“所给予的东西”(datum为拉丁语动词dare的中性过去分词,意为“给予”)。在拉丁语中,这个词有着“运动”或“转化”的含义,因而到了英文中,“数据”指流动而非静态的事物;它并非实际情况,而是一个假定事实。到了现代,在被科学家和数学家广泛采用之前,data这个术语实则是由一众神学家和人文主义者进行推广的,这点或许也颇有讽刺意味,因为现在数据本身确实也披上了某种宗教色彩。正如历史学家丹尼尔·罗森伯格(Daniel Rosenberg)所说:“围绕着数据的新兴思想——‘数据主义’,已经成为当代文化的核心、成为我们理解世界和自身的方式。”
罗森伯格将“数据”这个词的现代用法追溯到17世纪——当时一位曾在牛津大学接受过教育的英国牧师兼神学家亨利·哈蒙德,在其所发表的一系列信件和文章中都用到过这个词。根据data一词拉丁语词源的含义,哈蒙德用其来表示“契约”或“妥协”,意指在争论中所给出的或被视为理所当然的东西,不对其真实与否进行判断。而事实上,它们是否真正符合事实并不重要,甚至不相关。对于哈蒙德来说,“数据”的例子是:牧师应该被召集去做祷告,或者礼仪应该被严格遵守。
数据作为一个修辞概念,指的是“出于论证的目的”而被采用或规定的东西,而不关乎真实性,在整个17世纪,“数据”一词都保持着这样的含义。从神学、哲学再到数学,各个学科都使用了“数据”这一术语来指代那些不言自明、无需争论的情况或原则,在神学领域常是如此,除此之外还有类似在代数中常见的出于论证方便的情况。对“数据”一词的这一解读至少持续到了18世纪中期,当时,另一位研究磁学的牛津大学学者用“数据”这个词来表示“在实验调查之前设定的公理”——这也就意味着其事实的反面。
18世纪中后期,经验主义的兴起使得“数据”一词的用法发生了变化——它更多地被用来指通过调查获取的原始的、未经处理的信息,更类似于通过观察和搜集得到的事实。也就是说,数据开始被解读为调查或探究的结果,是客观的东西,而不再是一主观的预设。
在含义经历重大转变之际,“数据”一词陷入了几乎不再被使用的境地,经历了持续将近一个世纪的文化滞后期。当它在20世纪中期重新出现时,它已开始与结构化的、经过储存、通过计算机进行传输的量化信息形成联系——指构成比特和字节的数据。正如罗森伯格解释说,“数据最初是作为一种用于搁置本体论问题的工具出现的,而在它在消失后又重新出现在我们的一般文化中心时,它已经产生了自己的本体”。事实上,这个词难以捉摸、难被理解的特性,也恰恰是其需要不断适应新技术的一部分原因。
然而,在实际上,数据早期的定义——预设或前提,对我们走出今天所形成的对数据的迷恋有着至关重要的作用。正如罗森伯格所说,“3个世纪以来,这个词一直就像一面镜子,折射历史和认识论,向我们展示了我们认为理所当然的东西”。如此来看,我们对数据的态度也正是反映我们社会状况的一面镜子。正如凯特·克劳福德所观察到的,“在21世纪,数据已然成为任何可以被捕捉到的东西”。而通过本书,我想表达的是,我们对拥有、控制、获取和利用数据的痴迷揭示了从资本主义、工具主义角度出发的思维方式已然主导了我们对这个社会中重要事物的评价方式。这种思维惯性或说冲动正在破坏我们意在通过倚重数据的法律和对话进行有效技术管理的尝试。
数据与法律
尽管数据在现代社会得到了大范围的普及且变得无处不在,但无论是民法还是普通法传统都没有对数据进行明确定义。尽管如此,无数寻求对数据进行监管的法律法规仍然在各种材料定义及分类中使用该术语。它们通常是以循环论证或自我指涉的方式,将数据作为一个修辞概念或预设,体现了其现代用法的原始精神。例如,有关数据保护和隐私的法律一般会定义一些关键术语,如个人数据或个人信息、敏感数据或非识别数据,但却没有就“数据”或“信息”进行单独的阐释。然而,这些关键术语定义及内涵边界的快速变化也充分说明了,明确数据的性质是现在及未来管理好我们与数字技术关系的基础。
法律中的个人数据通常指能够或可能使自然人被识别或可识别的事物。早在1977年,联邦德国数据保护法就将个人数据定义为“有关已识别或可识别自然人(数据主体)个人或重要情况的具体信息”。现代欧洲数据保护法也将个人数据等同于“与已识别或可识别的自然人有关的一切信息”。美国制定的第一部全面的数据保护法则将个人信息定义为“能直接或间接地与特定消费者或其家庭形成合理链接,或者能够对其进行识别、描述,并能够与之进行关联的信息”。
随着技术能力的不断发展迭代,可识别或可描述的人的范围也在不断扩大。例如,1995年,欧洲数据保护法便就“哪些内容可算作个人数据”进行了规定,并给出了若干说明性的例子,其中包括了个人身份识别码,以及与个人身体、生理、心理、经济状况、文化或社会身份有关的信息。后来,欧洲对这一原本不够详尽的清单进行了扩充,增添了包括个人姓名、位置数据、在线身份标识和遗传特征信息在内的多项内容,而这些是在1995年尚不一定能预见的。欧洲对其数据法的更新,反映了时下大数据和更先进的数据分析工具兴起,以及数字生态系统日益复杂化的社会发展趋势。
欧洲的数据保护法也试图通过分别针对个人数据和非个人数据制定规范等方式对二者进行区分,然而二者的界限尚不够明确。欧洲在关于非个人数据的法规中,将非个人数据反复定义为“个人数据以外的任何数据”,限制放宽,旨在促进欧盟境内非个人数据自由流动。该条例的附录解释道,“不断发展的物联网、人工智能和机器深度学习构成了非个人数据的主要来源”,并举出非个人数据的具体示例,“非个人数据包括用于大数据分析的聚合的、匿名化的数据集,有助于监测及优化农药和水的使用的精准农业数据,工业机器的维护需求数据等”。然而,欧洲也承认,“如果技术发展可以将经匿名化处理后的数据转换为个人数据,那么此类数据仍将被视为个人数据”,并指出数据属性的归类不是绝对的,其具有随时间、场合的变化而变化的不稳定性。
最后,有关敏感数据的概念也发生了类似的演变。早期的国家数据保护法没有对敏感或属特殊类别的个人数据和普通个人数据进行区分,但现代数据法却就此做出了有益尝试。例如,1995年,欧洲数据保护法便将揭示种族或族裔、政治主张、宗教或哲学信仰、工会会员身份的个人数据,以及有关健康或性生活的数据归为需要额外保护的特殊类别数据。根据其最新规定,这类数据的范围还扩大到了包括基因数据、生物识别数据和有关自然人性取向在内的数据。美国各州的法律还将个人的精确地理位置数据、私人通信内容、出于某些目的而处理的生物识别信息以及部分健康相关信息视为敏感的个人信息。在这些法律框架下,法律实体通常要在处理敏感及特殊类别信息方面承担更多的义务和责任。
个人数据或敏感数据等概念定义的不断变化,表明这些基础法律概念含义不稳定且在不断扩大的性质。尽管人们声称这些概念是“技术中立的”,但随着时间的推移,以数据为中心的法律将使我们变得越来越敏感脆弱。随着不断发展的技术将越来越多的东西链接至互联网数字空间当中,无论我们是否成为被识别的目标,我们都将不可避免地变得更易于识别、更易于暴露。因此,以前不属于个人数据或敏感数据的数据可能会变得非常私人化和高度敏感化。此外,任何特定数据点的敏感程度还取决于能够接触到它的各方,以及包括它所处的经济、社会、文化、历史背景在内的其他各种因素。所有数据点都是动态变化的,依托特定语境存在,对其评估也不能脱离其语境而孤立地进行。即使许多法律仍然依赖于这些定义,但它们的低适用度和固有漏洞使得一些信息领域学者直接拒绝这种分类和二分法。
为何需放眼数据之外
毫无疑问,无论我们为实现对数据进行准确充分定义的目的付出多少努力,数据的概念都将持续发展演变。虽然我们难以有效地治理无法定义的东西,但可以说,着眼于数据这样抽象而无定形的东西,终究是比谈论权力、不平等等一系列由数字技术的不断发展所带来的其他挑战要容易许多。数据具有一种中立的气息,掩盖了深层的结构性偏见和不平等,这些偏见和不平等让我们意识到数据治理所面临的挑战。数据可以变成一种工具,它横亘在那些可能通过解决引发这些挑战的根源问题而获益的人和可能由于质疑和打破诸如不受约束的企业权力、不稳定的工作、环境带来的负面影响、日益严重的排外主义和公共领域封闭等现状而遭受挫败的人之间,拉开了人与人之间的距离。
当从数据的角度出发进行思考时,我们最终会缺乏据以解决手头问题的框架,并且无法超越数据去理解问题的关键和要害。我们乐此不疲地为错误的问题寻找答案、为解决错误的问题牺牲了时间,我们为有效减少危害或降低风险所付出的努力也因此遭到了破坏。就好比,在我们迫切需要一个全新的、将保护人和维护人的安全提升到对数据的关注之上的框架来解决问题时,我们还在为“数据保护”和“数据安全”哪种提法更加妥当这类细枝末节的问题纠结犯难。而这就是为什么即使有一系列新的、聚焦数据的“隐私”相关法案出现,我们个人和社会向好发展的希望依然那么渺茫。
此外,无论是现在还是将来,数据都无法为我们在如今以技术为媒介的世界中的彼此互动建立规范提供一个合适的基础。规范必须建立在我们可以明晰边界且可以对此达成相对共识的基础之上,就像我们过去在隐私等基本权利方面所做的那样。如果没有共识,面对无国界技术带来的针对集体的、跨国界的挑战,我们有可能面临地缘政治分裂的风险。在各国都在关注数据本地化、数据民族主义和数据主权的当下,上述风险正变得越发明显,而上述种种趋向,实际上只是其他形式的本地化、民族主义和数据主权的代名词。
在本书的第一部分,我将概述现代数据治理方法的历史渊源。现代数据治理其实可以追溯到数字技术出现之前,当时形成了早期针对数据保护规范的国际共识,在此基础上,基本的隐私权得以成形。在这一部分中,我所应用的是基于我的专业和既有研究的一种跨国界的研究方法,但主要还是着眼于大西洋两岸国家的数据治理对话。
在第二部分中,我将探讨最新时代思潮的转变是如何导致世界各地的立法者及政策制定者、技术专家、行业和公众对数据产生独特的痴迷的。照此背景来看,现有的法律框架所维护的往往还是狭隘而过时的、以数据为中心的“隐私”观点,或者它们想要利用这种观点来为那些在隐私权可保护范围之外的伤害做辩护。这样一来,我们对数据的痴迷将有可能使一度强大的、一定程度上由数据保护法定义的隐私概念,面临着沦为被企业掌控的工具的风险。
在本书的第三部分,也即最后一部分中,我将提到我们可以避免陷入这种命运,而解决方法在于我们需要承认这个逐渐浮现的后数字世界的真正性质,同时摆脱数据迷恋的桎梏,通过更广泛的基于权力的技术治理方法来保护人类。
我想通过写这本书说服各位读者,要想保护人类,我们必须看到数据之外的东西,否则,数据将反客为主,比我们拥有更多的权利、得到更多的保护。
1 泽字节:信息计量单位字节的多倍形式,1泽字节表示1021即十万亿亿字节。——译注