数字产业发展与范式变迁
数据的经济学分析
市场、产业和组织
江小涓[1]
一、数据要素市场:制度创新与知识体系构建
1.“数据要素市场”是中国特色实践创新,需要理论创新支撑和引领
人类社会进入数字经济时代,数据成为基础性战略资源,能带来经济收益、社会进步和人的全面提升。社会对此有高度共识,各国也都高度重视数据的流通使用,但提法和表述不尽相同。中国重视数据资源的一个重要表现,是将其纳入“生产要素”体系中。从2004年开始,党中央、国务院一系列重要文件相继明确“信息要素”“数据可作为生产要素按贡献参与分配”等新的概念和要求。[2]2022年6月中央全面深化改革委员会审议通过《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”),制定了数据要素若干基础制度和重点工作。2023年国家数据局成立,建设数据要素市场、发挥数据要素重要作用的工作部署加快推进。[3]目前所知,中国是唯一提出“数据要素市场”这个概念并进行相关实践创新的国家。
中国对数据要素给予特别重视有其必要性和合理性。中国作为世界上互联网人口最多、制造业数字化转型规模最大和智慧城市建设数量最多的国家,每日都在产生各类海量数据,并具备较好的数据收集、汇聚、传输和计算能力。从消费类数据看,2023年末中国移动端月活上网人数达11.8亿,人均上网时长6.9小时,每天提供的消费者在线总时长近80亿小时,高居全球第一,源源不断产生与个人行为相关的海量数据。从生产类数据看,中国制造业占全球比重高达近30%,高居全球第一,企业内部数字化转型和产业互联网连接水平居全球中上水平,源源不断产生与生产行为相关的海量数据。从城市运行数据看,中国660个大中型城市中,有超过600个进行智慧城市建设,高居全球第一,源源不断产生与城市运转相关的海量数据。同时,中国5G(第五代移动通信)基站数量、计算中心数量、连接5G基站的网民和企业数量等均高居全球第一,数据的收集、汇聚、传输便利高效,由此决定了中国是全球数据大国的重要地位。[4]建设数据要素市场,对中国未来的发展是重要机遇,意义重大。
作为首个将数据视为生产要素的国家,我国的数据资源开发利用过程必定在实践中有许多难点,迫切需要理论支撑和引导。数据要素的实践和理论创新是典型的制度创新。作为生产要素,产权问题、定价问题、市场问题、收益分配问题等与生产要素配置相关的经济学概念和内涵等必然成为理论研究关注的问题[5],解决工作实践中的困惑和问题更应当成为理论研究的首要任务。
2.数据独特性质和创新的挑战与机遇
从生产要素视角观察和理解数据,有许多独特性质需要研究、定义和提出处置路径,主要体现在以下几个方面。第一是多主体生产导致确权困难。数据的生成过程错综复杂,常常是多方主体相互协作的结果,包含了不同主体不同程度的投入和贡献,因此确权困难。第二是多场景复用方便。一组数据可以被不同主体以不同方式重复利用,在使用上不具有竞争性和排他性,不易清晰明确主张权利。第三是数据中的敏感信息多。许多数据的内容多层次、多元化,可能承载了需要保护的个人信息和商业机密,即使匿名化和去标识化,也有可能被挖掘出来。第四是减损贬值快。绝大部分数据的价值在于实时性,有研究表明一年期以上的数据贬值率达到98%以上,保值增值十分困难。第五是具有多主体数据交互这种流通使用方式,其他生产要素的流通使用很少采用这种方式。上述这些特点都是数据要素的显著特点,必然带来要素市场构建和发展中的困惑与难题,也带来实践与理论创新的诉求与机遇。
3.实践探索的轻重缓急与理论创新的问题导向
在“数据二十条”的起草制定中,针对数据要素与其他生产要素不同的特点,文件的重点是构建起主要架构,即所谓的“四梁八柱”[6],许多更具体的内容都需要不断探索发展,并从社会有较多共识、实践有迫切需求、符合数据要素特征、与理论体系有较好契合性这些角度,进行轻重缓急的排序,解决数据市场建设中最紧迫、最基础性的制度规范问题,并为未来实践与理论创新留下充足空间。例如在产权问题上,不回避所有权,但更强调持有权、使用权、经营权,让数据先动起来、用起来,就是现阶段中国特色数据产权制度的一个鲜明特点。再如处理好场内交易和场外交易的关系也是现实针对性很强的问题。由于各地政府成立了45个“数据交易所”或“交易中心”,因此在文件制定过程中,要求数据交易以“场内为主”的呼声很高。但是从实践看,数据流通使用既有通过数据交易所完成的“场内交易”,也有数据供需双方之间直接发生的“场外交易”,更有规模巨大的非交易型的数据交互。从现实出发,“数据二十条”并未强调数据流通以哪种方式为主,为未来发展提升留足探索创新的空间。在公有数据开放共享和开发利用方面,在构建安全贯穿数据治理全过程的安全治理模式等方面,“数据二十条”也从理论与实践的结合出发,重点解决阻碍当下要素市场发展的主要问题,并为长远发展留下足够空间。[7]
二、数据产业发展:多种运行模式
生产要素是基础产品,多种数据产品的集合构成了数据产业。数据产业与其他类型产业有许多相似的运行模式,但其特点决定了数据产业发展也有自身独特的运行模式。
1.市场主体直接交易的运行模式
这种运行模式是需求方与生产方直接对接和交易的方式,与其他要素并无不同。最主要的应用场景是当下大量推进的经济社会“智能化转型”。这类转型的本质是将物理场景数据化并使两者有效协同,其中的“数字化”或“智能化”转型的规模有多大,提供转型服务的“数据服务商”或“智能化服务商”的需求就有多大。有些企业采用专业数据生产商提供的数据库或数据组件,有些企业购买数字化转型解决方案,有些企业购买智能化转型的“一揽子”服务。经过长期实践积累、技术创新和商业模式创新,相当一批服务商具备了较高业务能力。例如由于隐私保护、其他政策限制或竞争关系,一些领域的数据无法汇聚或拉通,数据服务商可以提供联邦数据和计算解决方案,私有化部署,使数据不动算法动,原始数据不动计算结果动。由于产业转型将是一个规模庞大的持续过程,相关技术仍将快速发展迭代,因此这类服务需求的发展前景远大,产业规模将不断扩张。未来这个产业的发展,要更加关注相关制度规范的要求,如数据提供方知情、隐私保护、产权保护和内容合规等。
2.依据平台交易的运行模式
“数据二十条”发布后,各地数据交易所快速增加,到2023年底已经超过51家。从各地数据交易所的工作推进情况看,总体上是制度建设和规则建构先行,高频推进的工作包括登记、确权发证(持有权、使用权、经营权)、价值评估、公共数据开放和运营、数据链建设、数据产品合规体系和数据安全体系建设等,以及从数据、数据产品到数据资产、数据资产金融创新的路径指引等。[8]同时,交易所各类主体的汇聚效果明显,几家主要的数据交易所中已经入场的各类主体都超过万家,包括数据供给方、数据需求方、多种类型数据服务商和数据安全技术开发主体等。[9]不过总体上看,场内数据交易量有限,仍在尝试和起步阶段。
没有交易发生甚至没有场内数据交易意愿的主体为何“入场”?首先是数据交易所的信息平台作用突出,能够促进相关主体之间的充分交流,构建良性互动、开放协作的产业生态,共同推动相关制度建设。在此共性意愿下,各类主体有各自立场。数据拥有方希望在确权的基础上能够交易数据并获得收益,交易不活跃时也期待数据能够被确权、评估和入表,成为数据资产。数据资产可以增加企业信誉和改善资产负债表。不过最有共识的期待是数据资产可以用来融资,例如数据质押贷款、数据资产担保和数据资产证券化等。目前,金融业普遍认为数据资产带来的挑战和机遇都很大,需要积极谨慎研究,试点探索先行。这种想法可以理解,例如一笔估值数千万元的数据资产用于抵押贷款,到期不能还款,而用于抵押的数据资产又迅速贬值,那么这种风险如何控制还需要实践探索。对数据服务商来说,能在数据交易所得到某种方式的增信并预期能为交易所中的各类主体提供服务,是其“入场”的重要动力。当然,先行进入、获得信息、得到增信,并期待在未来海量数据交易中抓住先机,是所有主体的共同愿望。
这里要强调的是,虽然场内数据交易本身还不够活跃,但数据要素市场建设和数据产业发展都是新业态、新模式和新的制度建设,应该允许探索创新并给予足够的时间和空间。不要因为难以将其纳入我们熟悉的体系和模式而给予否定或限制。当前的主要问题是,政府和国有企业对这个模式给予较多投资和多种资源支持,在一个产业发展初期,政府给予必要支持有其合理性。但从长期看,政府的主要作为应该体现在制度建设和政策导向上,各地政府直接入场并强势存在,有可能干扰市场机制有效发挥作用,形成切块分割的局部市场,影响市场发挥优胜劣汰和试错迭代的功能。
3.数据交互型发展模式
数据交互流通是数据产业独特的发展模式,是当前数据流通中被广泛使用的商业模式。数据或数据产品并非用来直接交易获利,而是为了业务发展。也就是企业和组织通过与内部各方以及与业务相关外部各方共享数据来支撑业务打通和创造新价值,各方共享业务发展带来的利益。数据交互的主流模式是API(应用程序接口)模式,即通过应用程序接口拉通数据,这种模式允许不同的应用程序或系统之间进行数据交换和集成,实现数据流通和共享。API模式在数据流通中的应用非常广泛,它可以帮助实现数据共享、数据交换、数据迁移、数据同步等功能。在API模式下,并没有数据交易发生,因此数据持有方并没有确权、估值、入表和交易规则等服务需求,而需要解决数据交互中匿名化标准、隐私保护责任边界、数据跨界跨境流动、数据安全技术开发、大企业数据垄断等问题。下面我们分别讨论各类平台的数据交互情况。
首先是消费平台。其数据主要用于全链条业务和跨界业务打通(数据交互)而非数据交易。例如跨境电商平台有海量实时数据,为平台国国内外客户和商户服务,打通全链条数据交互,从消费者偏好感知、智能广告推送、获得客户订单、生产者排产制造、商户发货、物流体系配送,到商品交付消费者这一运作全链条的数据拉通,支持平台全球业务发展和生态圈的不断拓展。再如银行数据主要用来进行风控、识别客户、推送服务以及各种衍生服务圈的开拓,而不会通过确权—交易这种方式来流通利用。
其次是产业互联网平台。产业互联网的初心就是通过数据交互以支持产业链从供应端到客户端各个环节的业务衔接和融通,以提高产业全链运行效率。另一类产业平台是复杂场景下全域数据的拉通,例如全过程智能电网建设、智慧城市建设中多场景数据的汇聚和应用。这两种情形下,平台有可能将行业、领域知识与经验进行数字化封装,提供优秀的服务组件,适应特定企业和特定场景的应用需要,但此时的供需双方直接沟通进行交易,成为前述第一种交易模式。[10]
4.公共数据事业和产业
由于我国公共部门的绝对和相对规模大,因此产生的公共数据的相对体量较大。中国政府职能较全、服务较多,出于公共目的对公民进行合理数据采集,加之还有大量公共企事业单位产生的数据,这使得中国的公共数据量为全球之最,而且数据质量较高。现实中服务类型的公共数据,主要通过两种数据交互方式提供服务。一是中央到地方的政府服务平台,纵向数据与横向数据汇聚或贯通,为公众提供异地或跨层级的数字化服务。二是政府建立公共数据专区,汇聚政府各部门掌握的多种类型数据,为需要了解市场主体信用状况的机构(如金融机构)提供相关服务,从而实现数据不出域,可用不可见,既能助力信用良好的企业获得金融服务,又能保护企业的商业秘密。
但总体看,我国公共数据的开放程度还远远不够。公共数据开放是国际共识。2011年,巴西、印度尼西亚、墨西哥、挪威、南非、菲律宾、英国和美国签署了《开放数据声明》,推动公共数据开放。开放数据的定义是“公众可获取的、能够被用户完整观测和使用的数据”。有些国家还要求“机器可读”“易于导出”“可依申请给予协助”等。目前全球七十余个国家参与其中。我国政府的数据开放还有很大余量和空间。我们应发挥制度优势,以最大力度开放公共数据,并推动企事业单位的数据与其他各类数据汇聚融通,为数据产业发展提供关键要素。
中国的医疗、交通、金融、电力都由国有大型企业和事业单位经营,相关数据具有结构化、实时数据更新、迭代良好等特点。这些国有数据优势企业大都重视数据要素发挥作用,提升已有业务和开拓新业务。我们希望,这些国有企事业单位不只为自己“数据增强”,还要为更多企业“数据使能”,能够以多种方式放出数据,支撑新创企业创新,支撑社会治理和公共服务。[11]
三、生产组织形态:竞争格局与开源开放
1.数据汇聚能力和场景应用能力的重要性与开源开放模式
软件业在发展的过程中,形成了“开源”这种产业组织形态。开源技术指源代码向公众开放的软件技术。在数字时代,开源成为一种创新理念与文化形式,指共创共享的技术创新,并已经成为软件、网络和数字领域的开发和创新模式。全球97%的软件开发者和99%的企业使用开源软件,72%以上的移动操作系统基于开源Linux(操作系统内核),全球70%以上的新立项软件项目采用开源模式。开源的优势源于技术的网络化,最大程度的广泛应用是网络技术的本质要求。开源使技术持续迭代演进,应用领域不断增加,能够汇聚众智、多方协同,获得透明高效的海量数据、大量自动化的协作工具、世界范围内智慧资源的分布式协作和接力式开发,大范围连结产品、企业和产业,形成网状产业生态,构建大规模生产和应用场景。[12]
在数据时代,数据成为重要的创新要素,特定场景成为应用关键,任何一个创新组织链接的数据越多、更新越快、交互越强、场景越丰富,就具有越强的创新能力和市场能力,因此开源开放式创新成为更加重要的创新组织形态。互联网和数字技术的发展进一步提升了企业创新资源链接和跨界重组聚合的便利性。在平台类企业组织内部,双边或多边主体利用开放相互加持,促进共赢的空间不断扩展;企业之间通过技术专利许可、协作研发、创新联盟等方式,获取互补的创新资源,发挥研发协同效应和规模效应。进入人工智能发展阶段,开源开放型产业组织模式的重要性将进一步增强,成为创新和生产资源配置的重要组织形态。例如,小米第二代仿生四足机器人CyberDog 2开放了图形化编程界面,给开发者提供丰富的接口和资源,在增强自定义能力的同时极大地降低编程技术的门槛,实现更加丰富的交互功能,加快产品的创新迭代。
开源不仅限于以软件为基础的产业。在科学领域,开放科学逐渐成为科学研究方式变革的一种趋势。[13]开放科学以“自由、开放、合作、共享”为理念,以海量数据汇聚和处理为手段来支撑大规模科学项目的研究。在天文学、高能物理、生命科学、空间科学等领域,国际大科学项目成为推动重大科学发现的主流模式,各国或国际组织均致力于大科学数据的开放共享,将各国科学家联合起来开展分布式协作研究。例如,全球生物多样性信息网络计划(GBIF)是一个面向全世界用户的有关全球生物多样性的综合性信息服务网络,拥有61个国家的科学数据;平方千米[射电望远镜]阵项目,其接收面积达1平方千米,比当前同类设备的灵敏度提高100倍,搜寻速度提高1万倍,共有来自20多个国家的约100个组织成员。[14]
2.开源开放模式与产业竞争格局
进入人工智能时代,领先企业的市场竞争力特别突出。这些企业依据数据和算力方面的优势,先行占领市场获得更多数据,规模经济和范围经济效应十分显著,规模效应递增的特点也由“边际”转变为“质变”,甚至“涌现”,有可能导致市场结构和竞争关系的根本改变,即先行者获得垄断性的市场份额,具有强大的市场影响力。基于对这种市场前景的期待,目前人工智能通用大模型的领先者采用闭源模式,如微软的Turing-NLG、OpenAI的GPT-4等,而且由于“领先者加速”,从而大者更大、强者更强的趋势仍在继续。从经济学理论框架出发,这种趋势必定会导致垄断性的市场结构。
在以往软件业的发展中,开源模式是约束垄断形成的重要力量。微软于1983年开发的Windows系统(闭源)曾于2009年占据市场份额的93.79%,同时期的安卓系统(开源)只占2%。而到了2017年,安卓系统以38.97%的市场份额首次超越Windows系统37.07%的市场份额,成为全球第一大操作系统。[15]现在,相对后起的智能大模型如Meta的LIama、阿里云的通义千问、零一万物公司的Yi-34B均是开源的,希望能与先行闭源大模型形成有效竞争。但由于先行者的优势较之软件时代更加突出,我们还不能简单地认为市场从长期看会解决这个问题,就完全交给市场去处理。政府可以考虑加大对于开源开放的鼓励和引导,使之成为企业社会责任的标识和追求,成为社会认同的创新文化,以约束头部大型平台的垄断风险,提升创新效率,促进创新收益的公平分享。
总之,中国是一个数据生产大国和使用大国,是首先提出数据要素概念的国家,其中的实践探索多元而活跃,是理论创新的丰富土壤。期待学术界同人共同努力,构建符合学术理论规范、包含数据实践主要问题、体现中国数据发展特色的学术理论体系。
[1] 江小涓,中国工业经济学会会长,中国社会科学院大学教授。
[2] 中共中央办公厅、国务院办公厅:《关于加强信息资源开发利用工作的若干意见》,2004年12月;中共中央:《中共中央关于坚持和完善中国特色社会主义制度 推进国家治理体系和治理能力现代化若干重大问题的决定》,2019年10月。
[3] 国家数据局等17部门于2023年12月联合印发《“数据要素×”三年行动计划(2024—2026年)》;国家数据局于2024年5月会同生态环境部、交通运输部、金融监管总局、中国科学院、中国气象局、国家文物局、国家中医药局等部门发布首批20个“数据要素×”典型案例;国家数据局于2024年5月推动24家数据交易机构联合发布《数据交易机构互认互通倡议》。
[4] 一些国际研究机构如互联网数据中心(IDC)将中国列为数据保有量排名第二的国家,本人对此持疑。从数据生产规模、数据收集便利性和数据应用的广泛性看,中国实时数据生产量无其他国家可以比拟。
[5] 例如:黄益平,沈艳. 数据要素市场化配置多点发力[J]. 经济,2022(02): 74-77;孟庆国,范赫男. 强化公共数据治理 持续释放公共数据价值[J]. 网络安全与数据治理,2022, 41(10): 1-3;谢康,夏正豪,肖静华. 大数据成为现实生产要素的企业实现机制:产品创新视角[J]. 中国工业经济,2020(05): 42-60.
[6] “数据二十条”提出构建数据产权、流通交易、收益分配、安全治理等四方面制度,即保障权益、合规使用的数据产权制度,合规高效、场内外结合的数据要素流通和交易制度,体现效率、促进公平的数据要素收益分配制度,安全可控、弹性包容的数据要素治理制度。
[7] 在“数据二十条”的制定过程中,国家发展和改革委员会成立了专家组,笔者是专家组组长,制定过程比较充分地听取了各方面专家学者的意见。笔者和专家组多位专家在“数据二十条”颁布后写过学习文章,例如:江小涓,白京羽.构建数据基础制度体系的有力举措[N].人民日报,202301-09(9);梅宏.数据要素化迈出关键一步[J].智慧中国,2023(1): 44-45;黄丽华.建立数据要素流通全流程合规与监管体系,是实现安全高效流通的基本要求[EB/OL]. (2022-12-20).https://www.ndrc.gov.cn/xxgk/jd/jd/202212/t20221219_1343668.html;申卫星.以分类管理的路径构建数据确权授权的指导规则[EB/OL]. (2022-12-21). https://www.ndrc.gov.cn/xxgk/jd/jd/202212/t20221220_1343697.html;李晓东. “数据二十条”将夯实数据要素作用[EB/OL]. (2022-12-21).https://www.ndrc.gov.cn/xxgk/jd/jd/202212/t20221221_1343723.html.
[8] 更多详情可以参考郎佩佩:《数据要素实践》,中国经济信息网,2023年4月27日。
[9] 关于几个发展较快的数据交易所制度建设的概况,可参见于施洋,黄倩倩,虞洋,等.数据要素市场的价值增值研究:理论构建与实施路径[J]. 电子政务,2024(2):33-40.
[10] 我国数据产业发展还需要解决一个突出问题,即数据跨境流动问题。限于篇幅,本文不展开讨论,有兴趣的读者请参见江小涓.数据交易与数据交互:理解数据要素市场特征的关键[J]. 中国网信,2024(1):32-36.
[11] 有研究表明,我国人工智能发展数据方面的制约,可以通过引入公共数据得到一定缓解,见李振华团队的《中美AI大模型训练数据对比分析》(内部研究报告)。
[12] 江小涓. 以开源开放为抓手形成科技与产业新优势[N]. 人民日报,2021-08-31(9).
[13] 2021年11月9日至24日,联合国教科文组织大会第41届会议审议通过《开放科学建议书》,标志着世界开放科学迈入新阶段。开放科学知识、开放科学基础设施、科学传播、社会公众开放参与以及知识体系间的开放对话是开放科学的主要内容。
[14] 有关开放科学的更多研究,见李秋甫. 开放科学体系有助于提高创新效率[N]. 光明日报,202106-10(16).
[15] 笔者根据Statista公布的数据计算而得。