随着企业努力以可靠和可持续的方式快速产生结果,基础数据的重要性变得至关重要。管理这些数据的一个主要挑战是数据架构中所需的各种功能。重要的是,不仅要考虑集成各种数据集成和管理功能以获得无缝体验所需的时间,还要考虑这些流程在组织的不同部门中如何变化。
此外,随着新的创新和技术进步的出现,这些能力必须不断更新和重构。在这种背景下,构建一个数据平台(或者更恰当地说,是一个数据生态系统)变得至关重要,该平台可以在企业范围内使用,提供互补、灵活和可扩展的功能。
数据生态系统的好处是多方面的,它提供了更高的敏捷性和信任度,同时最大限度地降低了风险。此外,数据生态系统的重要性还延伸到数据素养和数据技能的发展——它代表了一个致力于收集、存储、共享和利用数据的人员、流程和技术的协同网络。企业必须鼓励其团队学习、理解和拥抱数据生态系统。
图 1.数据生态系统的关键原则
为什么人工智能需要强大的数据生态系统?随着组织利用人工智能 (AI) 进行创新,必须确保强大的数据基础,以实现信任、可扩展性和协作。如图 1 所示,数据生态系统确保使用人工智能(传统和/或生成式)进行创新的社区能够以面向未来的方式利用强大的数据生态系统的关键组件。该生态系统提供了扩展 AI 相关用例所需的所有组件,数据产品提供了以可靠和可观察的方式获取和使用数据的工具。
这包括:
数据基础设施计算和性能数据管理,用于深入了解数据及其质量数据治理安全性以及相关的主数据和元数据数据生态系统中的关键组成部分是什么?数据基础设施数据基础设施是构建所有其他功能的基础支柱,无论是单个功能还是多个功能。企业越来越多地采用混合方法,将本地系统与各种云服务集成,以实现不同的功能。同时,解决此基础架构中的安全和策略管理等关键要素至关重要,特别是要适应受监管的行业并遵守数据驻留要求和 GDPR 和 CCPA 等法规。此外,通过促进应用程序在此数据基础设施中的加入和扩展,有效扩展应用程序的能力同样重要。
数据存储和计算如今,随着数据基础设施的不断发展,仅依靠单个数据湖或数据仓库已不再足够。必须根据特定需求(例如用例、数据速度和应用的分析模式)使用各种存储和计算资源。与此同时,Apache Iceberg 和 Delta 等通用框架和格式正在出现,以实现存储解决方案的标准化,同时越来越多地使用 Parquet 和 Avro 等常见压缩格式。这些需要在混合数据基础架构之间兼容,以便当企业过渡到不同的云提供商时,数据存储和计算的转变可以不费吹灰之力。
整体数据管理一个全面而灵活的数据管理生态系统应该能够在混合多云基础架构中运行,利用各种数据存储和计算资源的功能,无论使用的应用程序或云如何。数据管理控制台应该设计为集中控制,同时允许在整个混合多云基础架构中分散执行。例如,如果企业使用 Snowflake 进行存储和计算,则数据质量等数据管理功能应转换为 Snowflake 原生过程。同样,如果企业选择 Databricks,则应调整其流程以利用 Databricks 的本机 Spark 功能,使其能够在数据生态系统中高效运行。
Data Governance和 Data P产品通过强大的数据治理层和基于数据产品的数据共享层为企业提供支持数据管理组件非常重要。这种方法需要强大的元数据基础的支持,以将业务和企业概念与底层技术的复杂性联系起来。它使非技术数据用户能够处理数据。他们可以在不完全了解底层存储、计算和基础设施生态系统的细节的情况下做到这一点。扩展数据治理功能需要强大的自动化层,其中包含协作和建议。这可确保您的数据生态系统得到正确使用,并允许自动执行手动任务。 从本质上讲,数据治理和数据产品层必须与数据管理层的其余部分紧密集成。
Analytics and Operational Processes该层旨在支持分析和运营流程,包括 AI 和机器学习、自助服务报告以及与运营相关的应用程序。数据管理和数据治理功能协同工作,为分析和操作系统提供可信的数据产品至关重要。分析利用这种精细的智能与底层数据存储、计算资源和数据基础架构层进行交互,以访问最相关的数据集。
企业的价值驱动因素复利价值如果数据生态系统的设计和构建得当,那么随着新用例的出现,它已经具有巨大的价值。这种价值体现在能够有效地识别现有数据产品,与适当的数据管理员建立联系,建立对数据的信任,并毫不费力地准备和组合数据以满足每个用例的特定要求。
为了进一步阐明其价值,精心设计的数据生态系统可以实现以下功能:
降低风险,加强问责制数据生态系统可以提供一套集成的服务和能力,确保轻松透明,将企业的不同方面连接在一起。专注于协作使业务部门能够做出贡献,因为他们看到了为其业务部门和整个企业提取的价值。
提高敏捷性数据生态系统的整个框架基于模块化和重用。这使企业能够识别、利用和自动化,从而提高敏捷性。例如,自动进行数据分类以将不同的分类元素连接到元数据和数据存储实体和属性,从而实现更轻松/整合的数据质量和保护。
降低成本,获得价值可以通过多种方式降低成本,首先通过整合技术能力和减少单点解决方案、跨解决方案集成的成本以及管理和维护所有解决方案和技能的成本。第二步是利用 FinOps 等智能功能,例如,数据管理层可以基于工作负载,根据用例在最具成本效益的数据存储和计算选项上运行。
总结数据生态系统通过前瞻性的人工智能驱动战略为企业和领导者提供了可观的价值和适应性。这样的生态系统必须是动态的,随着新的业务需求和技术进步的出现而不断适应。对于团队来说,掌握整个数据生态系统至关重要,而不是将单一功能应用于每个用例。要实现全方位的好处,通常还需要在企业工作流程中进行文化转变。这种转变使数据办公室团队能够有效地管理、维护、扩展和量化整个组织的数据生态系统的价值。
原文标题:The Power of AI: Building a Robust Data Ecosystem for Enterprise Success
原文链接:https://dzone.com/articles/why-a-data-ecosystem-is-essential-for-enterprises
作者:Siddharth Rajagopal
编译:LCR