作者:Denodo首席技术官Alberto Pan
企业多年来的一贯做法是通过数据仓库或近年来兴起的数据湖,将所有数据持续整合到单一位置。数据仓库、数据集市和传统数据库需以特定方式对数据进行结构化和条理化,相比之下,数据湖具有多项关键优势。然而企业发现,他们在构建和管理自己的数据湖方面投入越多,从中获得的价值反而越少。企业也由此看到集中式数据基础架构和方法会带来不符合预期的后果,包括:
1.存在认知差异:集中式数据团队对数据的了解程度不足以与只专注于全部数据集中特定部分的具体业务团队相提并论。
2.基础架构僵化:集中式数据基础架构缺乏灵活性,难以满足企业内不同部门的需求。
3.价值实现延后:集中多个数据源的数据会耗费大量时间,导致数据使用者无法按需访问数据。
为了克服这些问题,企业开始密切关注一种名为“数据网格”的分散式数据基础架构新方法。德勤报告认为,“数据网格概念是一种管理数据的民主化方法,不同业务域在中央自助式数据基础架构的支持下使用自己的数据。该基础架构包括配套的数据管道引擎、存储和计算能力。数据网格并非将企业数据看作单一巨型数据存储库,而是将其视为一组数据产品存储库。因此,业务域(比如“金融”)会以产品形式提供数据,它们能够随时用于分析目的,具有可发现性与可靠性。就此而言,数据产品负责人本身便是拥有深厚域知识的业务域代表。”
在数据网格配置中,企业内的不同部门或群组将拥有单独的数据域,由中央自助式数据平台提供支持,并按照一套总体标准进行管理,以确保互操作性。每个数据域都将提供各自的数据产品,经过专门设计,方便目标受众使用,并且符合企业全局标准。尽管所有权分散,但预配和治理保持一定程度的集中。数据网格架构有望克服完全集中式基础架构的局限性。但是,许多企业仍然质疑如何在获得中央数据平台支持与保持域的独立性之间实现这种微妙的平衡,并希望借助数据虚拟化(DV)等现有技术来解决这一问题。
支持无复制数据访问
能够有所帮助的解决方案形形色色,数据虚拟化作为一种数据集成技术,已成为实现数据网格的关键环节。与提取、转换和加载(ETL)流程以及其他面向批处理的数据集成方法不同,Denodo数据虚拟化让数据使用者无需先将数据复制到集中式存储库即可访问数据。从这一层面来看,可以认为数据虚拟化本质上是一种“分散式”数据集成策略,因为这种策略将在企业的不同数据源之上建立企业范围的数据层。要在不同数据源之间进行查询时,数据使用者只需查询数据虚拟化层,然后该层便会检索所需数据,让使用者不必受困于访问的复杂性。数据虚拟化层不含实际数据;但其存储了访问各种数据源所需的所有元数据。
Denodo数据虚拟化提供单一位置来存储元数据,支持企业从单一控制点,在整个企业范围内自动实现基于角色的安全性和执行数据治理协议。例如,企业可以自动脱敏处理薪资数据,用户必须拥有必要凭据才可查看此类信息。数据虚拟化层提供数据网格架构中所需的自助式数据平台的大部分必要功能。
企业可在数据虚拟化层之上实施多个语义层,由不同部门架构,并作为半自治数据域运行。每一个语义层都可以灵活地调整或移除,而不会改变或影响底层数据。因此,企业可以轻松地建立支持跨不同域重用的标准数据定义,并确保不同数据产品之间的语义互操作性,从而促进联合治理。
打造数据产品
当企业希望通过数据网格来开发数据产品时,他们会利用数据虚拟化层来创建虚拟模型,而利益相关者无需了解为之提供信息的数据源的复杂性。因此,企业可以利用一系列灵活的方法(例如SQL、REST、OData、GraphQL或MDX),使这些虚拟模型作为数据产品被访问,此过程不需要编写代码。
此外,这些模型还具备用于支持数据产品的数据沿袭跟踪、自主记录、变更影响分析、身份管理和单点登录(SS0)等功能。通过集中存储元数据,数据虚拟化层可以提供全功能综合数据产品目录的所有必要成分,以供通过该目录清晰解读企业中按域有序排列的数据资产。
建立数据域自治
Denodo数据虚拟化使企业能够在不影响底层数据的情况下,在源数据之上构建视图和语义模型,因此也为数据域自治提供了现成的基础。该架构使数据域利益相关者能够选择为其产品提供数据的数据源,并根据需要更改组合以满足其需求。一些业务部门已在运营自己的数据集市和满足偏好的SaaS应用程序,由于数据域可以独立扩展,这些部门能够在数据网格配置中轻松地重用信息。
请务必注意,数据虚拟化不能取代数据仓库和数据湖等单体存储库;数据虚拟化处理此类存储库的方式与任何其他数据源相同,在数据网格配置中,它们将成为网格中的节点。这意味着与现有数据仓库或数据湖联系紧密的数据域可以继续通过这种方式为某些数据产品提供服务,例如需要机器学习的数据产品。在这种情况下,数据产品将继续通过虚拟层被访问,管理数据产品的协议也与负责数据网格其余部分的协议相同。
数据网格可以避开高度集中型数据基础架构的许多陷阱,是一种前景广阔的新架构。但是企业需要正确的技术支撑,才能通过简单明了的方式有效地利用数据网格,而无需更换旧硬件。