在大部分科技领域里,基本都是美国引领,中国跟随。在数字化、智能化领域,这个规律也适用。
但在数据领域,有一件事情,如果中国做成了,那将走出一条不同于欧美的路。这件事情,就是数据要素化改革。
在AI发展的叙事中,几乎所有焦点都曾集中在技术演进的前台:模型有多大?参数有多少?推理速度多快?谁率先实现了千亿级参数、万亿级语料、类人对话?
但今天,我们已来到一个新的临界点:所有领先的大模型都已经“能说会写”,却在“深度认知”上开始撞墙。
为什么?问题并不出在算法本身,而在算法背后“认知能力的供给体系”——即:数据从哪里来?是否可信?能否被持续调度和泛化利用?
这不仅仅是一个技术工程问题,还是一个制度设计问题。
模型的智能边界,已不再只由参数量决定。
随着模型训练的边际收益递减,AI能力的差异,正在从“模型结构”转向“数据治理”——谁拥有可控、可信、可协同的数据生态,谁就能训练出更稳健、更具场景理解力、更少幻觉的大模型。
但我们也越来越清晰地看到一个全球性难题:公共语料已被挖掘殆尽,私域数据则深锁于孤岛,数据的流通和使用,正被制度壁垒深度卡脖子。
在这个背景下,决定大模型未来性能上限的,不再只是GPU数量,也不只是Prompt优化技巧,还是——一个国家或组织是否具备系统性的“数据制度能力”。
某种程度上,“数据制度红利”,成为全球AI竞争的新变量。这是AI发展史上的一次范式跃迁:从“谁能训练更强模型”,走向“谁能构建更优的数据制度”。
而这场竞逐中,一个极具战略性的变量正在浮出水面:中国的数据要素化改革。
这项改革,曾被视为产业数字化的一部分,或是数据资产定价、数据交易的国内探索。但今天,它的意义远超于此——它正在提供一个完全不同于西方的数据治理路径、主权框架与协同模式,成为全球AI生态中被低估、却最具制度穿透力的变量之一。
接下来,我们将从全球视角出发,透视大模型所面临的数据资源瓶颈,解析中国“数据要素化”背后的制度逻辑,并探讨其在全球智能体系中可能带来的规则重塑与价值重构。
全球大模型走到“数据主权”的十字路口大模型的发展,正在逼近其“语料临界点”。
从GPT-3到GPT-4,再到各类开源模型的百花齐放,背后支撑的,是过去二十年间互联网所积累下来的海量公开语料。但今天,高质量的公开文本资源几乎已经被用尽。据OpenAI、Anthropic等多方研究预测,全球范围内适合用于训练的“公开语料红利”将在2到3年内完全枯竭。
这意味着,大模型的“喂养边界”已触手可及。
下一步竞争,不是拼语料总量,而是拼“谁能合法使用私域数据”。
当开放数据资源即将见顶,模型要继续提升认知能力,就必须深入到更多结构化与非结构化的“私域数据”中:
行业数据(医疗记录、制造日志、金融交易、客服语音)
企业数据(用户行为、设备状态、内部知识库)
跨境数据(供应链履约记录、IoT互联数据、国际业务流)
这些数据极具价值,却高度敏感、结构复杂、边界模糊,不是“爬取”就能合法使用的。
大模型时代的智能鸿沟,不再取决于谁“爬得快”,而是取决于谁“调得动”——谁能构建可信的数据使用规则,谁就能训练出真正具备场景能力与业务洞察力的模型。
然而,全球数据治理,正陷入三大结构性瓶颈:
1. 权属不清:谁拥有数据使用权?用户?平台?采集者?服务提供商?
面对庞大的数据资产,各国尚未形成统一确权机制,法律界定模糊,模型调用“处处踩雷”。
2. 价值难衡:数据作为商品缺乏定价模型,作为要素缺乏收益分配机制
用户愿意授权模型使用数据吗?企业愿意开放数据协作吗?没有可预期的“激励结构”,数据不会自发流动。
3. 治理割裂:每个国家、每个行业都有自己的监管口径,难以协同
欧盟GDPR强调数据主权,美国强调数据自由流动,亚洲国家政策多元,跨境模型的训练与调用陷入灰区地带。
算法越来越强,数据却“关在门里”,这是一幅矛盾图景:模型能写诗、能画画、能规划财报,却因为缺乏合法数据支撑,频繁出现幻觉、偏见、事实错误;
这不是模型的错,而是数据的世界正在变得碎片化、封闭化、治理化。某种程度上,可以说“AI的下一个难题,不是生成什么,而是‘如何合法地知道’。”
因此,全球大模型的发展,正在从“技术突围”进入到“制度突围”的新阶段。接下来,我们将聚焦中国数据要素化改革路径,深入分析它如何在这一全球博弈格局中,提供出一套具有制度原创性与实践落地性的答案。
“数据要素化”不是经济术语而是制度体系设计过去几年,“数据要素”这个词频繁出现在政策文件、研究报告和市场展望中,似乎成了数字经济的关键词汇之一。但真正理解它的深意,必须先跳出“资产化”与“定价权”的窄视角。
数据要素化的真正意义,不是“把数据卖掉”,而是“为智能社会构建一套可确权、可流通、可协同的数据制度体系”。
这不是产业层的改革,而是一次制度性架构重塑。
“数据要素化”,本质是重建信任机制与协作规则。
在大模型时代,数据不再是被动存储的资产,而是构成“认知引擎”的能量源。它的流通、调用、聚合、压缩、泛化,决定了模型的智能边界。
但没有制度保障的数据流动,是不可持续的。只有构建一套“可以使用、可以追责、可以再组织”的体系,数据才可能以可信方式融入智能系统。
这正是中国“数据要素化”改革的核心使命。
它不是简单地给数据“贴个价格”,而是通过制度性安排,将数据从资源状态,转变为可组织、可授权、可治理的智能系统第一性要素。
目前,三个关键制度跃迁,正在中国落地:
1. 从“资源所有”到“使用权确权”
传统数据治理强调采集者/持有者的所有权,而要素化逻辑关注的是:“谁可以在什么场景下合法使用这些数据,谁可以获取价值回报”。
这促生了“数据三权分置”的法律结构探索——将数据所有权、使用权、经营权进行分离管理,让“被使用”本身成为合法动作。
2. 从“系统孤岛”到“可信交换协议 + 监管中台”
各地正在试点建立支持数据跨平台调用的数据交易所、联盟链平台和“监管沙箱”机制,使数据在不同系统、不同机构间流通时,有身份、有履历、有规则、有边界。
这背后强调的,是一种“可溯源 + 可审计 + 可调度”的信任架构——为AI提供真实、合法、透明的数据基础。
3. 从“单点整合”到“跨域协同机制”
“数据孤岛”不是靠收归一统消除的,而是靠协议机制与中台系统建立数据联邦。
典型机制如“数据中介组织”“数据托管节点”“异地联合建模平台”,已在医疗、金融、交通等多个行业落地实践。
让我们来看一些样本:
政务领域|上海城市大脑、粤港澳政务协同平台:实现跨部门、跨地区的政务数据标准对齐与共用,以制度托底实现智能服务能力。
行业场景|医疗/金融数据中台:通过行业数据联盟推动数据供给侧改革,在监管参与下构建“可信半公共平台”,支撑多模型、多任务、多机构AI应用落地。
基础设施|数据交易所与数据确权链:北上广深已建立多个数据交易机构,深圳、雄安等地推进“数据三权分置+联盟链确权”机制,为“可信调度 + 合理定价”打下基础。
换句话说,中国要做的,不只是“把数据商品化”,而是通过制度架构,让数据成为可以被智能系统真正调用的“可信语义资源”。
这不是对市场逻辑的微调,而是对未来智能文明基础设施的主动定义。
下一节,我们将把目光投向全球,对比中美数据治理范式,揭示中国路径如何提供另一种数字主权与智能系统共生的可能性。
数据主权、信任协议与全球认知秩序的再平衡当大模型成为国家竞争力的代表性技术之一,围绕AI的竞赛早已不仅停留在技术层面,而是逐步上升为制度范式之争。在这场深层次博弈中,数据制度的选择方式,正决定一个国家未来AI能力的边界——不仅是能不能训练模型,更是能不能可信、合法、稳定地让模型运行起来。
>中国模式的优势,不是数据总量,而是制度组织力
外界普遍认为中国在大模型领域的最大优势是“数据规模”,但这只是表象。
真正具有战略意义的,是中国正在构建一种“在可控边界内实现可信协作”的制度能力。
在“数据确权+数据流通+监管中台”的组合机制下,中国正在试图回答一个智能时代最核心的问题:“如何让数据既能高效参与AI训练与运行,又能兼顾安全、合规、信任?”
这一制度体系,不再单纯依赖个人授权或平台自律,而是通过立法、标准、平台、交易规则等多层机制,实现数据权益、风险与使用效率的平衡。
>全球影响:制度竞争成为AI时代的新博弈场
随着AI模型逐步走向跨境部署、跨域协同,原有的数据治理逻辑正在面临挑战:
模型可以“走出去”,但数据不能“带出去”;
算法可以全球部署,但训练过程可能触碰不同法律雷区;
智能系统的泛化能力受限于数据边界与授权障碍;
这就提出了三大关键问题:
1. 是否可能建立一套“跨国AI数据协作协议”?
类似WTO、碳排协定的数据治理框架,推动形成国际标准。
2. 制度是否可以成为算法信用的来源?
模型可信不再由技术验证,而由其数据治理路径提供信任基础。
3. 谁将主导下一代AI价值体系的底层协议与运行规则?
是沿用硅谷的“技术自由主义”,还是构建一种“治理增强型数字秩序”?
在这三道关键博弈题面前,中国的数据制度路径正在以某种“全球变量”的姿态浮现。它不是为了封闭,而是试图为AI运行建立一种“边界明确、行为合规、价值清晰”的基础秩序。
数据不是金矿是文明操作系统人类社会历经资源时代、工业时代、信息时代,每一次范式跃迁,最终都由一种全新的“底层生产组织逻辑”所驱动。而今天,AI 时代的底座正在显现:除了GPU、大模型本身,还包括谁掌握了数据制度。
在这个智能系统崛起的关键节点,数据不再是“等着被使用的原材料”,而成为认知系统的边界线、演化能力的载体、社会信任的接口协议。它决定了:模型训练是否可持续;智能系统能否泛化适配;算法行为是否可解释、可审计、可托付。
这意味着,数据制度不只是技术创新的配角,而是数字文明的“宪法级组件”。
中国的数据要素改革,要做的就是试图构建一种“制度性红利”。中国通过确权机制、可信流通协议、跨域中台与交易网络,力图打造一套“数据驱动但制度可控”的生态结构——不仅为本国模型提供合法、高质量、可追责的语义支撑,也在为全球AI生态提供另一种智能社会构建范式。
这是对“算法-资本-平台”叙事的系统性补充,是一种以制度设计替代无限扩张的路径创新。
在未来的全球智能竞争中,谁能率先构建“可信数据秩序”,谁就拥有输出AI治理标准、主导国际规则设定的底气。
未来的AI强国,不仅是模型最强、GPU最多的国家,还是最早定义“数据制度”的国家。
当所有模型的能力趋近时,决定系统上限的,将不再只是算力和算法,还是我们愿意以怎样的方式组织数据、管理知识、重构信任。
能否构建起来一套能真正释放出数据价值的机制体系,那将是一场关于智能文明底层架构的较量。但实事求是的说,这条路我们能走多远,还不好说。但总要有人去走进无人区,哪怕跌跌撞撞,也要勇敢前行。