1.2 数据经济新体系
反馈流数据加速HFL周期,那么如何加速数据价值的流动?如果说数字化带来的大规模数据反馈正在改变世界,那么数据作为继土地、资本、劳动力、技术之后的新生产要素必将推动新的经济体系形成,而这个新经济体系要为反馈数据在商业世界的流动加速。像ChatGPT这样的大模型会对数据的需求越来越大,特别是高质量的数据。
1.2.1 被数字化永久改变:优化权经济
据测算,采用共享经济模式的公司将在12年内增长2133%。到2021年,超过8600万美国人使用共享经济,另外,Airbnb上已经上架了1400个可以共享的岛屿。相对于渗透正在变得越来越广泛的共享经济,我们看到所有权的价值越来越缺少弹性。真正创造价值的是使用,特别是通过共享来突破所有权限制,在使用最大化的时候,增量的价值创造也被最大化。基于所有权买卖转移的交易经济,在逐步转变为基于数据对使用过程优化,创造更大价值的优化权经济,例如Uber、Airbnb、WeWork显著优化了固定资产的使用效率。收益分配也将基于优化使用过程所创造的价值来决定收益权,而不是单纯基于天生拥有,或者所有权与使用权同时集中在所有者身上的所有权体系,从而更公平地鼓励通过增量价值创造获得收益,这就是鼓励通过使用数据来优化资源、创造增量价值,并因此获得收益权利保障的优化权经济。特别是对于数据,所有者、使用能力、使用者并不统一,只有最大化共享才能最大化使用,从而使价值创造最大化。
让数字资产局限于所有权的限制是不合时宜的,因为这更多是零和博弈的价值转移,会形成保守和对抗性合作关系。从所有权到使用权,再到优化权,让数据流到合适的价值创造环节,和其他数据一起通过聚合效应创造更多的优化价值,更符合规律。但是,这一切都应放在隐私和公平等准则之下讨论,在数据资产精确溯源、记录、确权体系上开展。而且,这种转变是基于数据资产的独特性。
数据资产具有五个特性:
●聚合效应:维度增加后的价值提升效应。
●正反馈:越透明越安全,越使用越多,越使用越有价值。
●虚拟属性:数据使用的无边界和无限可能性。
●不对称:数据使用知识的不对称性。
●价值原则:能够用数据创造更多的用户价值是基础,所有的数据流通和使用都必须通过最优的价值增长过程,其模式才能正常运转。
数据资产还面临监管的挑战。首先,我们要面对的是数据应用价值创造者应该被激励的效率规则与数据所有者隐私权、收益分配权的矛盾。其次,是智能优化不断创新与监管规则滞后的矛盾。无论是基于事前规则和白名单,还是基于过程、结果的各种监管方式均有不足之处,用不变的东西限制智能的东西总存在局限,因为它有更强的主动规避能力。
数据作为虚拟资产和新生产要素,独特性在于,它通过聚合、更新、分析创造价值,具有类似恒星的负比热特性,即向外辐射能量的同时,自身温度会上升,直至引发聚变反应。价值驱动的数据自聚合体现为,相关性分析会让相关的数据自动趋向集中,围绕同一主题的数据维度增加会产生聚合效应提升数据的价值,并且可以交叉检验提升确定性。如何借鉴宇宙演化中建立平衡秩序的机制,让数据和信息借鉴能量的运行机制,让权属和利益激励机制的设计可持续,这一切都需要创新者引领。
数据驱动的智能技术并未像互联网在网络效应的驱动下迅速掀起全面的革命。在调研AI商业模式的时候,我最初的设想是,强大的AI应用和由其带动的数据聚合生态会形成和网络效应一样强大的正反馈效应,让领先的企业难以被超越。但是,这种现象迟迟没有出现,其中一个重要的原因是数据无法有效流通,无法形成智能与数据的正反馈,导致整个行业发展缓慢。
数据是智能的瓶颈,是下一代战略和商业模式的核心课题。对于数据的流通性,谁能解决隐私和利益分配的机制问题,谁就是共享平台;谁能最大化价值,谁就是应用者。这种共享是相互监督而不是暴露,这种使用是共有、共享、共治、共用。虽然未来的机制设计仍是难题,但去中心化和隐私计算都是需要加速探索的重要方向,应用驱动会是持续性机制和健康生态的长期基础。
数据资产的特性要求我们只有做到可用不可知,才能可控可计量,才能流通和激励。隐私计算有助于将数据的所有权和使用权分离,形成数据价值的流通,目前已经形成了很多相关的解决方案。其中,同态加密可以实现数据流通过程中不向第三方泄露,“可信执行环境”可以构建一个独立于各方,且受各方认可的安全硬件环境。谷歌提出的“联邦学习”在数据不出“本地”的情况下,通过去中心化的CoLearn用各方数据对模型进行训练,而后得出结论供各方使用。姚期智院士提出的“百万富翁问题”解决方案是多方安全计算问题,可以帮助人们在加密的数据中计算并最终获取有用信息,呈现计算结果,而不泄露原始数据。通过解决隐私问题降低数据应用成本是必须走通的路。
基于模型贡献率的分配规则
优化权经济如何度量并实现公平呢?数据价值的最佳量化方式,是在通过模型得出有意义结论的计算过程中,评估不同数据对模型的贡献,并以此为基础,考虑数据的所有权和优化权共同分配收益。姚期智院士认为,可以根据合作博弈理论,来确立不同的数据对于决策模型的贡献度,贡献度大的数据要素更有价值。因此,通过经济主体功效函数与决策模型贡献度的耦合,就可以对不同数据要素起到的经济价值做合理公平的定量评估,从而计算出数据要素在经济活动中产生的经济价值。在华润集团内部的实践中,根据数据定价算法在集团不同法人主体以及不同部门之间根据数据的贡献度进行要素价值的分配和部门贡献的独立核算,这样就可以市场化的力量使整个集团协同运作,用经济动力将基于数据要素的生产活动统一调动起来,使经济效率提升。
超级解决方案
将物理的世界抽象为数据,能够实现更快的反馈速度和流动性,突破原来的组织边界和关系框架,为更高效的资源组织效率带来可能,组织的定义、规模和边界也将因此延伸。
跨平台数据的个人化整合与产业解决方案视角的整合,是目前数据创造价值的两个主要方式。数据将成为重新整合的纽带,重构生产要素关系,以算法指引系统性优化的每一步。这种优化的结果是,用户将完全沉浸在个人化的体验当中,产业解决方案将围绕对需求的比特化以及对原子化的生产要素做高效重构。价值的杠杆发生了不可逆的变化,这就像广告行业的杠杆从创意人脑袋里的想法变成了分析师图表里的数据之后,一切都会随之改变,传统的利润池分布也将被重新划分。数据不可交易,但基于数据的价值可以,从技术上分离,并以商业机制激励,是当务之急。数据在这个时代的价值,决定了这个时代的商业一定会基于数字资产形成超级解决方案。
1.2.2 数字资产的转化
在我们讨论了海量数据结合反馈理念改变商业策略的同时,如何将数字资产这个新的关键生产要素的潜力,用更普适的方法转化为新生产力,这将是一个新的重要课题。
信息溢出
人们从撒哈拉沙漠的陨石高温让沙子变成了玻璃的现象中发现了玻璃。后来,因为玻璃制造工艺容易引发火灾,管理者将玻璃手工艺人们聚集在一个小岛上(他们既是同行,又是竞争对手),一起钻研手艺,这让技术发展得更加飞快。这在经济学中就形成了一个被称为“信息溢出”的环境,这个环境带来的效益可能比你设想的收益更大。在这里,人们第一次把海藻烧成灰加到原来的玻璃溶液中,发现了一种水晶玻璃,这就是现代玻璃的起源,玻璃因此变得透明了。
在找到玻璃的制造工艺之后,望远镜、显微镜、光纤等一切关联发明的出现对人类历史产生了深远的影响。这就是信息溢出产生的影响。那么,大量的数据集中在一起是否会产生类似的效果?从数据到信息,再到广泛的溢出效应,这是我们在数字化时代正在经历的。
数据盈余
如果说21世纪还有哪些重要的资源没有被充分开采,那么数据盈余首当其冲。据IDC预测,2025年,全世界每个联网的人平均每天有4909次数据互动,是2015年的8倍多,相当于每18秒产生1次数据互动。在物联网方面,据HIS的数据预测,到2025年,全球物联网(IoT)连接设备的总安装量预计将达到754.4亿台,约是2015年的5倍。而且,这还不包括已有的存量数据。例如,协和医院自1921年成立以来,以百年时间积累了335万份病历。总体上,我们处在数据规模和产生速度都在不断上升的曲线上。
三个转化之道
据统计,人类历史上90%的数据都是在过去几年间产生的,50%的数据在短短两年内产生。Gurjeet Singht是Ayasdi的联合创始人兼CEO,他认为:研究人员只是对每天收集到的1 quintillion(百万的3次方)字节数据中的1%进行分析和提取见解。而就是这1%被分析的数据创造了革新和见解,现在我们称之为“大数据”。
若要将剩余99%的数据转化为认知,至少要在三个方面有突破:
第一,从专家分析到算法自学习。呈指数级增加的数据规模只有通过自学习算法才能得到有效处理并被转化为知识,现在从查询出发去利用数据的潜能是不够的,低效的分析和假设过于依赖少数人的想法,这限制了数据资产转化为洞察的速度。算法应逐渐学会自动生成假设,通过自监督的方式自动地完成学习,这将提升数据分析转化为洞察的效率。
第二,突破非结构数据的解析和抽取的效率瓶颈。处理和索引PB级的非结构化数据现在主要还是依赖人工工作。大型组织雇用大量的数据专业人员来搜索、分类和移动这些数据,以便分析工具能够使用这些数据。现在迫切需要简化和自动化这些过程,在多个文件和云存储之间轻松索引文件,自动完成系统数据“移动”的解决方案。
此外,真正的数据洞察一定是非结构化的,寄希望于有一个标准化的数据产品解决数据洞察问题本身就是矛盾的。为了避免过度发散,非结构化数据的数据分析解决方案可能是垂直的,因此它们特定应用于某行业或某应用。例如,医学图像及其解释方式是一个上下文事件,需要临床数据集的特定知识。商业数据管理解决方案的时机已经成熟,帮助非结构化数据分析的工作实现流程自动化,很多公司开始提供类似的跨平台服务。对于人工智能算法训练,非结构化数据的多尺度表示和统一的数据生态运营也是必要的基础设施。
第三,让数据的使用权、优化权流通,让工具的使用门槛更低。基于数据的洞察和知识流通,而不是隐私,技术要解决这种分离工作,例如联邦学习就提供了一个很好的尝试。同时,让合适的领域专家去解决分析问题,将数据分析的重心从数据科学家和算法工程师转移到授权领域专家。数据科学家出现的频率已完全跟不上企业的需求。给商业用户(生物学家、地质学家、安全分析师等)开发对应的工具,他们比任何人都明白环境的问题,但可能不了解最新的技术。但我们始终相信,全面的智能变革将由行业内的人来推动。
数据需要在流动中才能匹配到需求,数据需要在流动中被充分应用才能持续在新的应用中放大和发挥数据的价值,数据需要在流动中才能和其他数据共同形成规模化的数据应用价值。在数据共享方面,在最重要的生产力红利面前,我们不能却步不前,面对数据过于保守,我们就会失去未来。
以往的人类历史中从来没有出现过这么大规模的反馈数据,也不具备处理规模化反馈的计算机制与计算能力,进而提出和优化假设。基于此的HFL运行速度和大规模并行,在未来将加速几乎所有事情的进程。