不久前,国务院正式发布了《数字中国建设整体布局规划》,并提出了数字中国建设的两大基础:打通数字基础设施大动脉和畅通数据资源大循环。
在《规划》中,数据要素的价值被反复提及,从数据资源化、数据资产化到数据资本化,数据要素价值的充分释放,将促进产业链全要素的生产力提升,助推经济高质量发展,以及产业优化升级。
北京大学数学科学学院、光华管理学院教授,中国科学院院士陈松蹊院士说,“数字中国建设,挖掘数据生产力是关键。过去多年的信息化建设,基础设施已经完备,接下来要构建数据文化,做软实力的建设,也就是通过数据科学在行业领域的应用,把数据的生产力充分挖掘出来。”
的确,数字化正在改变整个世界,而数字世界的底层,则是庞大且不断产生、汇集、运算的数据。随着产业数字化转型的加速,数据成为了最重要的新型生产要素,未来所有的场景都将以数据为驱动。
数据科学,作为刺破一切与数据有关掣肘的“圣剑”,正面对前所未有的历史机遇。
01
数据科学,随时代而进化
数据是伴随信息化时代而来的产物,而数据科学概念的出现,也并非久远。
1974年,图灵奖得主Pater Naur首次提出了数据科学的概念,他还为数据科学下了最早的定义:“在数据形成后,处置数据的科学。而数据与其代表的东西间的关系属于其他领域与科学的范畴。”
作为“处置数据”的科学,数据科学与数据演进的每一个阶段都息息相关。
百分点科技董事长兼CEO苏萌认为,数据科学走过的近50年的历程,应该可以划分为小数据时代、大数据时代和AI时代,未来将进入数据原生时代。
首先,小数据时代对应的是结构化数据、历史数据和线下数据,运用关系数据库、统计、ETL和数据仓库等技术,市场需求聚焦在商业领域的数据整合、描述性分析和BI分析等方向。不难发现,早期的信息化时代,与小数据时代的周期基本吻合,小数据时代也出现了几大传统数据科学巨头,并让金融等大行业通过数据的管理,探索新的服务模式。
当信息化时代向前演进,互联网的崛起无疑带来了第一次数据大爆炸,海量数据的产生,让依靠传统集中式的计算体系,变得捉襟见肘,互联网企业开始通过分布式集群的方式来存储、计算、分析挖掘互联网带来的海量数据,大数据时代似乎正呼啸而来。
直到2008年,自然科学国际顶级期刊《Nature》上首次提出了“Big Data”的概念,正式开启了接下来近10年的大数据时代(数据科学2.0)。大数据时代是一个典型的技术驱动的时代,Storm、Spark、Flink等新型分布式计算框架像雨后春笋般不断涌现,极大地提高了数据处理的深度、广度和速度。NoSQL数据存储崛起,Python语言流行,机器学习开始成为数据科学的重要技术手段,大数据也成为国家级的战略方针。
我们说量变会带来质变,当数据量与数据处理能力同时得到快速的提升,最大的受益产业就是人工智能。
以2016年AlphaGo为起点,AI开始走下神坛,被公众所认知,并逐渐走进行业应用场景。2023年,ChatGPT的横空出世,让所有人确信AI普及的时代已然到来。苏萌说,“它会成为新一代的基础设施,和之前的PC、互联网、云计算一样,未来很多的应用都会成长在其之上。”
苏萌还判断,随着数字技术的大融合产生叠加态,数据科学将进入原生的数据时代。在这个阶段,大数据、AI、云计算、智能交互等技术将与物理世界深度融合,数据的模态更丰富、质量更高、实效性更强,算法更先进和实时、算力更强大。在这个阶段,数据就真正变成了像土地一样重要的生产要素。
从企业的角度,在数据要素化的数据原生时代,基于数据科学对数据价值的把握能力,将会决定其在行业竞争中所处的位置。
02
基于“确定性”来提供价值
2009年的夏天,苏萌怀揣着借来的50万元人民币,在北大附近的中关村公馆租了一个80平米的小公寓,成立了百分点科技。
作为最早一批成立的大数据公司,百分点科技最初选择了互联网领域的电商行业,这也是大数据最先落地的行业。成立的前三年,百分点科技主要为电商平台和媒体资讯网站提供基于大数据的推荐引擎,拿下了一号店、唯品会、聚美优品等标杆客户。
正是这个当初看似有些“鲁莽”的决定,在短短几年后,成就了之后的中国规模最大的推荐引擎技术服务商。同时随着技术体系的成熟,百分点科技逐渐通过金融、零售、制造、媒体和地产等行业服务,完成自身向数据科学服务商角色的转换。
在这个赛道,可谓是巨头云集,2019年华为推出了ModelArts数据科学与机器学习平台;2021年阿里云PAI首先进入了Gartner魔力象限,标志着国际市场对于中国顶尖企业的数据科学能力的认可。在这期间,国外的Plantir和Alteryx纷纷迭代自己的产品技术并且完成了上市,百分点科技也推出了数据科学基础平台DeepMatrix。
数据科学这个赛道与传统意义上的大数据到底有何不同?
我们知道,“科学”是建立在可检验的解释和对客观事物的形式、组织等进行预测的有序知识系统,是已经系统化和公式化了的知识。
所以,笔者认为,科学一方面代表了一种确定性,它一定不是探索,而是基于知识系统来提供确定性的工具或服务;另一方面,科学代表了专业领域,脱离专业领域的科学绝对称不上是知识,也无法满足确定性的要求。
因此,数据科学服务商,必然要基于数据的能力提供服务,同时也要结合特定专业领域的知识,深入场景去提供服务。
苏萌也有一个观点认为,“领域知识本身是以数据包的形式存在,数据科学未来将会与领域知识更加深度的融合,而领域知识自动的抽取、知识的构建以及领域知识和人类的交互和服务将成为重点。”
这也是我们看到百分点科技这几年的业务多以行业场景为依托,无论是在政务数据中台、城市大脑等数字城市领域,还是在智慧统计、公安领域、智慧应急领域和数字产业业务方面,都做了深度融合,并推出了平台级的解决方案。
03
数据科学基础平台是如何炼成的?
那么,为什么企业需要数据科学服务商?
按照IDC中国副总裁兼首席分析师武连峰的观点,“企业需要选择合适的数据科学服务商,因为数据越来越复杂,数据量越来越大,应用越来越多,在让数据发挥价值的过程中,企业一定要选择与合作伙伴服务商携手挖掘数据的价值。”
而百分点科技,恰是这样一家数据科学服务商。
在百分点科技与IDC共同发布的《用数据创造价值 以智能激发增长——数据科学基础平台白皮书》当中,提出了数据科学平台模型概览,这是一个“倒三角”形的平台,在其底层必须要有一个强有力的内核,它是整个大数据管理的平台。在平台之上,会衍生出各种类型的数据分析工具,并以此支撑千变万化的各种类型的数据应用。
这就意味着,数据科学服务商必须要具备超强的平台能力,才有可能应对数据应用百花齐放。百分点科技CTO刘译璟认为,一站式数据价值实现平台,构筑数智化基础设施,是数据科学服务商构建服务能力的核心。
实际上,在大数据时代,百分点科技推出了基于大数据和认知智能技术的行业首个AI决策系统DeepMatrix。而随着不断地与实际的需求相融合,以及技术能力的丰富,如今DeepMatrix正式进化为百分点数据科学基础平台(DeepMatrix),服务于数据工程师、数据分析师和数据科学家,助力便捷高效地将数据转化为业务知识并辅助决策和行动,最终释放数据价值。
据介绍,DeepMatrix具备了六个核心的能力,包括全面的数据类型支持,完善的数据治理能力,强大的数据建模能力,丰富的数据洞察能力,高效的知识生产能力,以及高度复用的领域知识。
刘译璟表示,DeepMatrix还具备两大特征。首先是知识化,平台不断沉淀领域中的数据科学知识,包括程序性知识、事实性知识和概念性知识。传统企业的数字化转型面临着冷启动问题,平台能够借助行业内已有的专业知识为其破局。
其次是智能化,数据科学基础平台内置了智能辅助开发系统,可以自动化地辅助开发者选择方案以及完成数据适配,并智能化地进行方案精调和改进。同时,能够在数据治理的多个环节依托知识库及语义理解等智能技术帮助开发者提高效率。
我们知道,数据科学是要实现从数据到信息的转换,从信息到知识的转换,以及从知识到决策的转换。知识化的过程,就是为信息打上专业领域的“标签”,使其能够在具体的应用场景中被“理解”;而知识化的目标是产生决策,这就是智能化的意义,通过智能化让知识“活”起来,动起来,变成最终解决方案中的智慧。
实际上,苏萌也提出了一个数据科学平民化的观点。很明显,要做到平民化,一体化的平台是基础,所以百分点科技的数据科学基础平台,一直是沿着核心技术团队对数据科学的理解,在不断地演进当中,并服务于未来基于数据科学与专业领域结合的革命性变化。