海量数据对于当今大多数业务流程至关重要,可以大规模实现创新的客户体验。但是,对于数据团队来说,快速将干净、高质量的数据放到需要的地方——无论是内部系统还是外部合作伙伴——都是一个巨大的挑战。而实时做到这一点则更加复杂。安全、可靠、快速地移动数据需要良好的数据治理,但需要什么样的框架来确保数据通过组织内的实时分发得到良好的治理?
十多年前,Capital One(美国第一资本投资国际集团)启动了一项技术转型,要求在云端实现数据生态系统的现代化。他们已经建立并将继续发展一个中央基础数据生态系统,使整个公司的团队能够在整个组织内利用和共享管理良好的数据。良好的治理在数据生态系统现代化中发挥了至关重要的作用,这使得治理在今天变得更加重要。
下面概述的最佳实践可以帮助公司通过专注于实施具有内置数据治理的中央数据标准和平台,使其团队能够以良好治理的方式利用数据。
建立一个中央自助门户
为了确保数据在其整个生命周期中保持良好的管理,首先要构建一个中心,可以在一个地方访问来自所有单独存储库的数据。从这里,还可以设置多个管道,其中包含规定数据可访问性、数据速度(例如,数据是否流式传输)、模式执行、数据质量等的规则、限制和策略。这个自助服务门户应该允许企业组织将所有数据源虚拟化到一个统一的数据层中。这提供了对数据环境的鸟瞰图,使用户更容易访问和使用,同时围绕数据访问、隐私、安全等实施治理控制。拥有这个集中的自助服务门户是在整个公司内联合数据的关键。
建立服务质量治理
无论数据是实时共享还是异步共享,重要的是要确保所有数据都符合基于其敏感性和价值定义的治理。即使是今天似乎不需要实时访问的数据,在未来也可能变得至关重要。从一开始,你就应该根据数据对访问和安全应用不同级别的治理和控制。这意味着在数据生命周期的开始就对治理进行严格管理,这可能包括强大的数据质量监控、沿袭跟踪和安全控制,具体取决于数据的价值和敏感性。这样,随着需求的发展,任何数据集都可以很容易地浮出水面并共享,而无需以后进行昂贵的重构。
正确发布一次
当数据在毫秒内移动时,强有力的治理确保它在正确的时间通过正确的规则流向正确的地方。确保建立关于数据何时何地发布以及数据可用于哪些应用程序的规则,同时建立监控和可观察性。团队需要确信,无论是实时还是异步,他们的数据都能在需要时准确地用于特定的关键用例。在Capital One,实时数据的使用有助于检测欺诈行为并实现快速、安全的交易,但仍需要批处理数据来支持用例并大规模推动AI/ML。
使数据可追溯和可审计
在建立数据治理结构时,透明度至关重要。团队需要能够监控和审计所有数据流,以确保符合治理框架,识别潜在问题,确保数据安全,并提高整体效率。
这就是你的集中式数据中心重新发挥作用的地方,提供精细的发布和订阅功能,以便数据所有者可以监控哪些数据集与哪些团队共享,以及在哪些参数下共享。你可以围绕数据新鲜度要求设置服务级别协议(SLA)。此外,可观察性工具使数据团队能够监控数据管道是否满足SLA。
投资于合适的存储
为了实现大规模的数据共享,公司需要大力投资于合适的存储和基础设施。大多数数据湖和数据仓库还允许用户切换特定数据集的访问和监控级别。确保检查你选择的供应商提供的控制和监控水平。并非所有数据都需要一直存储在性能最高(成本最高)的仓库中——如果不需要实时访问和共享,一些数据可以更经济地存储在数据湖中。即使在实时数据的背景下,也有权衡成本和性能的机制。关键是要建立智能治理机制,通过建立定义延迟、保留和成本容忍度的服务质量和SLA,根据访问要求和用例在存储层之间智能地移动数据。
平衡成本和性能的另一个技巧是确保所有数据都标记有良好的元数据,例如所需的保留期、自上次访问以来的时间和使用模式。这种元数据允许我们自动将数据移动到不同的存储层中——将一些数据保留在加速层中,同时将其他数据归档到更便宜的存储中。这种多层方法还确保了所有数据,无论其当前的可用性如何,都可以存储和查找以供将来使用。你永远不知道今天看起来不重要的数据明天什么时候会变得重要。
通过提前采取数据治理的战略方法,企业可以大规模释放其数据的全部潜力。用户可以快速、安全、可靠地查找、访问和使用数据,为实时应用程序和关键决策提供动力。虽然实施稳健的数据治理是一项重大投资,也需要数据、业务和领导团队之间的紧密合作,但作为一个真正的数据驱动型组织的竞争优势使这项努力变得值得。