《全国数据资源调查报告(2023 年)》:由国家工业信息安全发展研究中心发布,通过对全国数据资源的调查,分析了我国数据资源的现状、问题和发展趋势。以下是对该文件的一些要点梳理。
1
数据资源调查情况
数据“产-存-算”规模优势基本形成:2023 年,全国数据生产总量达到 32.85 泽字节(ZB),同比增长 22.44%;全国数据存储总量为 1.73 泽字节(ZB),存储空间利用率为 59%;2200 多个算力中心的算力规模约为 0.23 十万亿亿次浮点运算/秒(ZFLOPS),同比增长约 30%。
数据“供给-流通-应用”主体逐渐丰富:2023 年,全国一体化政务数据共享枢纽接入 53 个国家部门、31 个省/自治区/直辖市和新疆生产建设兵团数据,“一网通办”事项不断增加;公共数据开放量同比增长超 16%;18.6%的平台企业和 51%的中央企业在数据开发利用过程中应用到政府开放数据;4 个国家部门、15 个省级数据管理部门探索公共数据授权运营。
海量数据和丰富场景优势潜力仍待释放:2023 年,全国数据产存转化率为 2.9%,海量数据源头即弃;企业一年未使用的数据占比为 38.93%,大量数据被存储后不再被读取和复用;交易所需求方是供给方的 1.75 倍,数据产品成交率为 17.9%,数据场内交易供需匹配率低;尚未建设数据管理系统的大企业比例为 21.9%,实现规划管理的数据资源仍然较少;开展数字化转型的大企业中,实现数据复用增值的仅有 8.3%,数据价值挖掘任重道远。
2
主要调查结论分析
数据生产规模大,范围广,增长速度快:我国数据生产规模持续扩大。2023 年数据生产总量达到 32.85 泽字节(ZB),同比增长 22.44%,非结构数据爆发式增长。
数据存储空间合理,终端存储高于云存储,产存转化待提升:存储总空间基本满足存储需求。2023 年我国累计数据存储总量为 1.73 泽字节(ZB),存储空间利用率为 59%。其中政府和行业重点企业存储空间利用率均为 70%左右。数据服务商对存储空间提前布局,存储空间利用率为 35.29%。
算力规模增长快,区域算力按需布局,智算能力需求旺:算力中心规模持续增长,算力建设仍需适度超前布局。至 2023 年底,2200 多个算力中心的算力规模约为 0.23 十万亿亿次浮点运算/秒(ZFLOPS),同比增长约为 30%。
数据流通方式多元,交互能力有提升,交易供需不均衡:消费领域数据交互活跃度较高。2023 年,四大运营商数据显示全国数据总流量较去年同期增长 7.6%,数据流量保持稳步增长
公共数据开放共享初见成效,授权运营起步探索,政企数据融合不断深入:公共数据体系完善,数据汇聚能力不断提升。截至 2023 年 12 月底,全国一体化政务数据枢纽接入 53 个国家部门、31 个省/自治区/直辖市和新疆生产建设兵团数据,挂接资源达 2.06 万个,实现累计调用 5361.35 亿次服务。
数字化转型激活企业数据,场景应用提质增效。本次调查中,96%的行业重点企业已实现数据场景化应用,其中超 8 成行业重点企业已经运用数据辅助运营管理优化,半数企业在生产环节实现数据驱动。
3
主要发展趋势研判
数据生产向高增速和高质量同步发展:在政策、技术和应用多重因素驱动下,我国数据规模将保持快速增长趋势,高质量数据资源将成为经济增长的重要源泉。预计 2024 年数据生产量增长将超 25%,AI 大模型的迅猛发展对大规模、高质量、多样性数据集提出更高要求,有助于数据质量进一步提升。
数据存储计算向一体化按需供给发展:随着人工智能训练需求的高涨,算力在短期内仍会出现难以满足需求的情况,但会随应用需求加速调整布局,提高算力利用率。一方面,数据存储结构将按需调整,边缘智能计算将有所提高,协同交互需求推动部分数据向云端迁移;另一方面,随着数据高效计算、实时读取需求不断增长,未来全国一体化算力体系将向算力能力发布、算力调度、安全服务等多元功能扩展。
数据流通向规范有序、多元协同发展:数据交易场所、数据服务商等流通载体将逐步走向规范有序发展。场内场外流通交易模式更加多元化,各类细分领域交易机构向专业化发展。平台企业和中央企业将持续发挥行业数据枢纽作用,带动行业领域的数据汇聚、流通和应用。
数据应用向需求牵引、智能驱动发展:应用场景牵引的数据开发利用将成为主要趋势,AI 技术成为数据开发利用的重要推动力。应用需求涌现,场景逐渐丰富化。大模型对海量高质量数据提出了迫切需求,垂直领域的数据应用需求将持续保持快速增长,数据驱动业务发展将成为主要应用诉求。围绕数据增值的产品服务将逐渐成为数据供给的主要方式。
4
存在的主要问题
4.1
数据生产总量大,但有效供给不足
2023 年,数据生产总量达到 32.85 泽字节(ZB),同比增长 22.44%。但生产总量中只有 2.9%的数据被保存,存储数据中一年未使用的数据占比约 4 成,数据加工能力不足导致大量数据价值被低估、难以挖掘复用。
4.2
算力存力较合理,但还需适度超前布局
2023 年,全国 2200 多个算力中心的算力规模约为 0.23 十万亿亿次浮点运算/秒(ZFLOPS),同比增长约为 30%;全国数据存储总空间为 2.93 泽字节(ZB),存储空间利用率为 59%。随着大模型研发应用不断增加,对存力、算力提出更高要求,需保持适度超前布局。
4.3
数据流通交易需求旺盛,但多元流通模式待完善
2023 年,全国数据总流量同比增长 7.6%,消费领域数据交互活跃度较高。中央企业和平台企业发挥行业枢纽作用,探索数据交互机制。数据交易机构建设加速,场内交易活跃度较低,产品成交率为 17.9%。数据供给难以满足旺盛需求,急需建立和完善多元流通模式。
4.4
数据应用场景加速落地,但数据价值有待释放
公共数据成为引领数据开发利用的催化剂,公共数据开放量同比增长超 16%,授权运营初步探索。数据多场景应用、多主体复用难度大,96%的行业重点企业已实现数据场景化应用,但实现数据复用增值的大企业仅占 8.3%,数据价值有待释放。
5
公共数据资源及其开发利用情况
5.1
公共数据体系完善,数据汇聚能力不断提升
截至 2023 年 12 月底,全国一体化政务数据枢纽接入 53 个国家部门、31 个省/自治区/直辖市和新疆生产建设兵团数据,挂接资源达 2.06 万个,实现累计调用 5361.35 亿次服务。
5.2
公共数据开放共享提升政务服务水平
国家行业主管部门、地方省级政府开放数据量比上年增长 16%、18.5%。高频政务服务事项实现“一网通办”“跨省通办”,逐步向标准化服务发展,电子证照、身份识别等已实现数据全国协同。公共数据共享满足率仅在少数应用场景得到满足,但大多数需求场景暂不明确的领域,与应用解耦的基础类数据,还需进一步提升数据共享效率。
5.3
公共数据授权运营机制正初步探索
人力资源和社会保障部、文化和旅游部、国家市场监督管理总局、国家卫生健康委等国家部委开展了公共数据授权运营。北京、浙江、上海、重庆等 15 个地区的省级数据管理部门开始探索公共数据授权运营机制。公共数据应用场景主要为公共服务和社会管理。
5.4
共数据与企业数据加深融合应用
公共数据在数据开发利用、流通交易中占比较大。平台企业、数据分析企业对公共数据需求高涨。本次调查中,有 18.6%的平台企业和 51%的中央企业在数据开发利用过程中应用到政府开放数据。工商、气象、交通、地理等公共数据广泛应用于数据开发利用中,成为释放数据价值的催化剂。
6
数据资源交易情况
6.1
数据交易需求旺盛
2023 年,全国数据总流量同比增长 7.6%,消费领域数据交互活跃度较高。中央企业和平台企业发挥行业枢纽作用,探索数据交互机制。数据交易机构建设加速,场内交易活跃度较低,产品成交率为 17.9%。数据供给难以满足旺盛需求,急需建立和完善多元流通模式。
6.2
数据交易机构建设加速
全国各地交易所快速铺开,19 个省市建立数据交易机构。上海、浙江、深圳、海南等地数据交易机构“百花齐放”,交易模式、数商生态、技术底座各具特色。交易机构在标准、规则方面尚未达成共识,场内交易吸引力不足。
6.3
数据交易活跃度较低
27 家交易所上架数据产品中仅有 17.9%实现交易,数据场内交易活跃度较低。例如,消费民生领域数据产品购买方数量是供给方的 2.4 倍,但产品成交率不足一成,存在供需不匹配的现象。
6.4
数据交易模式多元化
场内交易和场外交易并存,场内交易以数据交易所为主要平台,场外交易以数据经纪商、数据服务商等为主要参与者。此外,还有一些新兴的数据交易模式,如数据银行、数据信托等。
6.5
数据交易规则不完善
目前,我国数据交易规则尚不完善,缺乏统一的标准和规范。不同的数据交易机构之间存在着规则不统一、流程不规范等问题,这给数据交易带来了一定的风险和障碍。
6.6
数据交易安全风险高
数据交易涉及到大量的个人隐私和商业机密,数据交易安全风险高。目前,我国数据交易安全保障体系还不够完善,缺乏有效的数据安全技术和管理手段,这给数据交易带来了一定的安全隐患。
7
数据资源管理情况
7.1
在成效方面:
数据管理体系逐步建立:一些企业和组织开始重视数据管理,建立了相应的数据管理体系和制度。
数据质量管理得到重视:企业和组织开始关注数据质量,采取措施提高数据的准确性、完整性和一致性。
数据安全管理得到加强:随着数据安全问题的日益突出,企业和组织开始加强数据安全管理,采取措施保护数据的安全。
7.2
在问题层面:
数据管理意识不足:一些企业和组织对数据管理的重要性认识不足,缺乏数据管理的意识和能力。
数据管理人才短缺:数据管理需要专业的人才,目前我国数据管理人才短缺,难以满足市场需求。
数据管理技术落后:数据管理需要先进的技术支持,目前我国数据管理技术相对落后,难以满足市场需求。
数据管理法律法规不完善:数据管理需要法律法规的保障,目前我国数据管理法律法规不完善,难以保障数据管理的合法性和规范性。
8
数据资源的数据质量情况
数据准确性有待提高:部分数据存在错误或缺失,影响了数据的可用性和可靠性。
数据一致性较差:不同来源的数据之间存在差异,导致数据的整合和分析困难。
数据时效性不足:一些数据更新不及时,无法反映最新的情况。
数据完整性不够:部分数据缺少关键信息,影响了数据的价值和应用。
9
数据标准情况
数据标准不统一:不同行业、不同领域的数据标准存在差异,导致数据难以共享和交换。
数据标准不完善:一些数据标准缺乏完整性和准确性,无法满足实际应用的需求。
数据标准更新不及时:随着技术的发展和业务的变化,数据标准需要不断更新和完善,但目前数据标准的更新速度较慢,无法适应新的需求。