前言
在产业实践中,我接触了不同的需求,特别是近期围绕数据资源开发利用和数据要素市场建设,看到了不同的现状以及难点堵点,在这个过程中,逐渐形成一些不成熟的思考和观点,特别是在到底是什么阻碍了数据开发利用和数据要素统一大市场的形成,工具维度、理念维度和制度规则维度到底存在哪些问题?
统一的数据要素市场建设需要数据治理能力和治理体系的现代化,刀耕火种各自为政的数据管理模式已经难以适应现代化的数据大生产、大集中、大流通、大服务的要求,以数据管理集中和数据资源物理集中为基础,建设现代化的数据加工处理车间,发展自动化智能化的现代化的数据工厂和创新型的数据要素市场主体,实现对数据的整体性和综合性治理和高效开发利用。
以下对以上问题形成一些点状思考。
一 数据资源开发利用需要小切口小场景突破
数据要素市场建设千头万绪,既有基础制度需要加快细化深化落实的问题,也有基础设施需要创新建设加快理论研究与工程建设的需要,以及提高各类数据持有者数据管理能力并促进数据大户开放数据资源的问题,特别是构建一个开放创新可持续的数据市场体系与数据产业体系,发展数据科技,培养数据人才,加快形成全国统一数据要素大市场,可谓纷繁复杂,需要系统性整体性的宏观统筹,更需要小切口小场景率先突破!
二 推动数据大户供给
当前数据资源开发利用突出表现的问题是(数据大户)供不出、(数据资源)流不动、(数据应用)用不好,特别是(数据安全)保不好。这些问题是数据资源开发利用不能很好地开展,影响数据要素市场建设的第一层的问题。特别是持有大规模高价值鲜活通用数据资源的数据大户们,数据供给意愿不强、基础不牢、能力不强、风险过大,收益太小。
三 数据要素市场建设在多个层面取得进展加速发展
我们可以把数据要素市场建设分为宏观环境、中观产业和微观企业三个层次,宏观层面目前的法律、机制、政策、标准、市场体制已经基本完善,法律层面网络安全法、数据安全法、个人信息保护法和关键基础设施保护条例以及围绕法律建构的部门规章制度意见和办法,已经形成一套相对完整的数据治理规则。
在机制层面,纵向和横向数据资源共享已经初步形成涵盖数据全生命周期的管理机制,特别是政务数据领域一体化政务大数据体系建设,为政府高效履职提供了强力支撑,信用数据、自然资源数据、应急数据、公共安全数据、卫生健康数据、交通数据、人口法人数据全国有效共享的机制已经基本形成,为行业管理提供强力支撑。
在政策层面,数据作为生产要素的地位已经确立,数据要素市场配置路线已经明确,数据基础制度以及地方政府在政务数据资源管理、公共数据条例等方面加速配套,并且开始把数据产业纳入产业发展引导政策中;在标准层面,数据分级分类标准正式施行,为全国各行业各领域的数据分级分类提供了基础性、通用性的框架,围绕数据资源管理、数据分类、数据安全、数据治理、数据基础设施、数据开放共享等关键数据治理相关的标准,在国标、行标、地标、团标等多个层面加速供给。
四 数据要素市场需要客观认识数据三次加工模式
我们按照数据加工处理的生命线周期可以把数据要素市场分为数据生产、数据采集汇聚、数据加工处理、数据共享交换、数据开发利用、数据交易流通在这五个阶段会形成原始数据、数据资源、数据资产、数据资本和数据产品。
按照数据加工处理的深度,可以把数据加工处理过程分为初次加工、二次加工和多次加工。
初次加工主要是对原始数据进行初步的预处理或加工,使其具备进一步加工的条件,这个阶段,主要是进行数据汇聚和技术层面的初步的数据处理,形成质量较好的原始数据,为后续二次加工提供基本可用的数据。
二次加工则是在一次加工基础上按照通用质量要求、数据基础合规要求和通用法律规则要求,进行数据的加工处理,形成分级分类管理的规范化标准化的数据资源,为后续多次加工奠定基础。
多次加工则是在二次加工的基础上,按照场景应用的需要、行业特定数据规则规范标准,对各类数据资源进行组合融合处理形成数据产品和服务的过程,满足最终用户可以直接使用数据用于管理服务生产生活治理。多次加工则是在二次加工的基础上,根据场景需要,通过数据要素乘不限次数的各类加工处理,形成特定数据产品、数据资产的过程。
五 数据要素市场的基础是双集中数据治理架构
无论对数据的管理也好、治理也罢、交易还是流通,都需要有一个基本的前提基础,那就是要有一个集中统筹的实体机构和一个物理集中的数据资源,即对数据的管理和治理的最优结构是数据管理集中和数据资源集中的模式,简称双集中数据治理架构。
六 数据资源治理三次范式变化
在讨论两个集中数据治理模式之前,我们先梳理下目前的数据治理结构。
数据邦联主义阶段:从管理的视角、无论政府组织、企业组织,对数据的管理模式基本是部门主义的,源于数据服务业务以及业务系统建设起源于部门需求的原因,以部门数据的管理为核心、由其作为主体负责数据的生产、治理、汇集和共享,早期部门主义基本是数据各自为政,孤岛林立。
数据联邦主义阶段:随着跨部门业务协同或者公司治理、市场竞争或者整体政府理念一体化治理的需要,数据治理架构开始进入数据联邦主义,即由一个数据统筹的部门开始负责组织内部数据的汇聚整合,打破部门的数据孤岛,为部门提供数据统一的共享交换,但是数据资源和数据管理的最终权限还是在部门,数据管理部门主要职能是提供数据加工处理的共性技术支撑服务和作为窗口协调数据资源共享交换。
在数据联邦主义下数据管理和治理的主要目标实现数据的高效实时共享,但是实际的效果并不佳,虽然在技术平台层面建设了多层级多类型的数据共享交换平台系统,由于没有建立起清晰的数据共享的规则、标准、规范以及自动化智能化的数据共享交换审批电子流系统,在实际数据共享中依然无法避免数据管理审批的人工处理过程,以及跨部门的协调过程。虽然在实践中从技术层面和规则层面出现了不少创新,最终效果还是不佳,一事一议成为最后的解决方案。
数据整体主义阶段:随着数据作为第五要素登上历史舞台,数据治理架构开始进入数据整体主义阶段,既开始对数据管理统筹们推行强权扩权,并强力推动数据资源汇聚集中的阶段。特别是赋予数据统筹管理部门在业务上更多的话语权、审批权、规划权,实质性地给予更多用“数据说不”的权力。
七 数据整体主义的内涵
数据整体主义至少包含四方面的要件:整体观念、系统思维、综合分析、决策驱动。
整体观念,在一个组织内部以及与组织关联的生态系统,把数据看作一个整体来建构数据之间相互关系及其结构。
系统思维,对数据的采集汇聚加工处理开发利用,要放在更大的系统更综合的场景更广阔的背景中,建构数据与数据、数据与其他要素因素之间的互动关系和互动模式。
综合分析,综合多种分析方法和技术,从整体的视角对数据进行多维度的分析挖掘获取更全面准确多维的信息。
决策驱动,数据的应用以支撑科学决策为最终目标,从组织整体运行的角度,对把数据放到整体中,对整体的数据进行分析理解,对整体趋势的研判基础上的全局最优的决策。
八 对数据整体主义下的详细阐述
数据整体主义就是数据治理架构的双集中模式,即:数据管理集中和数据资源集中。
数据管理集中,通常意义上是指将数据的管理和控制集中在一个特定的机构,对数据进行统一的规划、组织、存储、维护和监管。特别是数据规划管理,对数据的架构、标准、流程等进行全面统筹,并在组织内部实施统一的数据治理策略和规范,获得对数据治理的一票否决权是数据管理机构的基础性的权限。
数据资源集中,通常意义上是指对数据的汇聚和整合实现在同一个平台、同一个数据资源池进行管理。特别是数据资源的物理大规模集中是数据资源集中的唯一模式,把分散在不同系统、部门、区域的数据进行集中统一规范地汇集到一处,并对这些汇聚的数据进行标准统一的整合。数据资源的物理大集中是数据开发利用和数据要素市场建设的前提和基础,是数据成为第五数据要素从 0 到 1 的前提,没有这个前提,统一的数据要素市场就可能是海市蜃楼。
数据资源集中,在数据形态上有两层含义:
一是原始数据的物理集中,即全量数据的无差别汇集集中存储管理。不要对集中存储管理误解为物理上在同一个区域同一个数据中心,只要能够在管理的权限上能够无法别地管理数据,分布式数据存储并不是不可以。
二是原始数据的二次加工集中,数据资源集中之后需要数据管理部门对数据进行二次加工处理,如前文所述,完成二次加工,才能对业务部门的多次加工提供真正有价值的支撑。
数据管理集中,在责任和义务分工配置的角度,亦有两层含义:
一是数据管理部门对以数据为核心管理对象的权力集中,对数据从生成到采集汇聚、加工处理、共享交换、开发利用、数据服务、数据资产化和资本化,建立规范化、标准化的治理规则和实施细则,并把这些规则和细则形成数据管理工具,为业务部门提供基础性的支撑,确保数据治理的“书同文、路同轨”。
二是数据管理部门对数据资源管理的逻辑分布物理集中。在一次偏学术性的交流论坛上,我请教一位行业大专家关于数据物理集中对于大模型的必要性,得到的一个非常有价值的观点:数据物理集中逻辑分布。目前大多数的数据是物理分布逻辑集中,实质上是一种伪集中,是技术最优对现实的无奈妥协。
九 数据整体主义的理论基础
数据整体主义是一种整体分析方法论。
所谓整体分析,是指不仅要考虑文化的各种特征如何结合在一起,还要考虑一个特征的变化如何产生连带变化。
数据整体主义这是整体分析方法在数据领域的应用,需要强调数据的整体性和综合性,通过对造成数据分割独立的各种成因的客观认知,找到解决问题的方法,把握和认识数据对象所代表的客观实在对象的特征及其关系规律,把数据视为一个整体来理解和处理,通过掌握数据的相互关联和相互影响,以整体的方式对数据进行处理和理解。
十 数据整体主义需要我们真正的理解数据
这种理解需要以问题、场景为导向,以决策驱动为目标,在分析数据时,既要关注个别数据点或特定变量的影响,还要考虑数据之间的关系、相互作用以及整体的趋势和模式。
数据整体主义既要考虑不同数据的特征如何结合,还要考虑一个特征的变化如何产生连带变化,实现对数据的整体性和综合性治理,推动数据的大生产、大流通、大服务。