实现卓越数据：生成式AI如何彻底改变数据集成

提供数据分析、ETL 和 NLP 的数据和生成式 AI 服务可实现强大的集成策略，以释放数据资产的全部潜力。

编者按：以下是为 DZone 的 2024 年趋势报告《企业 AI：知识工程的新兴格局》撰写并发表在其中的文章。

在当今的数字时代，数据已成为从商业和医疗保健到教育和政府等各个领域决策的基石。从数据中收集、分析和获取见解的能力改变了组织的运营方式，为创新、效率和增长提供了前所未有的机会。

什么是数据驱动方法？

数据驱动方法是一种依靠数据分析和解释来指导决策和战略制定的方法。这种方法包括一系列技术，包括数据收集、存储、分析、可视化和解释，所有这些都旨在利用数据的力量来推动组织的成功。

主要原则包括：

数据收集 – 从不同来源收集相关数据是确保其质量和后续分析相关性的基础。数据分析 – 使用统计和机器学习（ML）技术处理和分析收集的数据，为明智的决策提供有价值的见解。数据可视化 – 通过图表和图形直观地表示见解有助于理解并帮助决策者识别趋势和模式。数据驱动的决策 – 将数据洞察集成到组织各个级别的决策流程中，可增强风险管理和流程优化。持续改进 – 拥抱持续数据收集、分析和行动的文化，促进创新和适应不断变化的环境。使用 AI 的数据集成策略

数据集成将来自不同来源的数据组合在一起，形成一个统一的视图。人工智能（AI）通过自动执行任务、提高准确性和管理各种数据量来改善集成。以下是使用 AI 的四大数据集成策略/模式：

自动数据匹配和合并 – 机器学习和自然语言处理（NLP）等 AI 算法可以匹配并自动合并来自不同来源的数据。实时数据集成 – 流处理和事件驱动架构等 AI 技术可以通过在数据可用时持续摄取、处理和集成数据来促进实时数据集成。架构映射和转换 – AI 驱动的工具可以自动映射和转换来自不同格式或结构的数据架构的过程。这包括在关系数据库、NoSQL 数据库和其他数据格式之间转换数据，以及处理模式随时间推移的演变。知识图谱和基于图谱的集成 – AI 可以构建和查询表示实体和概念之间关系的知识图谱。知识图谱通过捕获丰富的上下文信息并支持跨异构数据源的复杂查询，实现灵活和语义驱动的数据集成。

数据集成是现代数据管理策略的支柱，对于让组织全面了解其数据环境至关重要。数据集成通过无缝组合来自不同来源（如数据库、应用程序和系统）的数据，确保组织数据资产的统一视图。

数据集成的主要好处之一是它能够提高数据质量。通过整合来自多个来源的数据，组织可以识别和纠正不一致、错误和冗余，从而提高数据的准确性和可靠性。这反过来又使决策者能够根据可靠的信息做出明智的选择。让我们仔细看看如何利用生成式人工智能进行数据相关流程。

探索生成式 AI 对数据相关流程的影响

近年来，生成式人工智能彻底改变了各个行业和数据相关流程。生成式 AI 包含广泛的方法，从生成对抗网络（GAN）和变分自动编码器（VAE）到基于转换器的模型，例如 GPT（生成式预训练转换器）。这些算法在生成逼真的图像、文本、音频甚至视频方面表现出令人印象深刻的能力，这些算法通过生成新鲜的数据样本来密切模拟人类的创造力。

使用生成式 AI 增强数据集成

现在，我们已经谈到了生成式 AI 在增强数据集成中的作用的实际部分。下面，我提供了一些真实世界的场景。这将使人工智能在数据集成中的作用更加清晰。

表 1. 真实用例

行业/应用

例

医疗保健/图像识别

生成合成医学图像，用于深度学习模型中的数据增强使用 GAN 创建逼真的医学图像补充有限的训练数据增强图像识别算法的性能促进疾病诊断和医学影像分析等任务

电子商务

自动执行架构映射和转换，以实现产品目录集成利用生成式 AI 技术自动调整不同供应商的产品属性和规格创建统一架构促进产品目录的无缝集成提升电商平台客户的购物体验

社交媒体

利用 NLP 模型从用户生成的内容中提取元数据分析基于文本的内容，包括社交媒体帖子或评论提取有价值的元数据，例如情绪、主题和用户偏好将提取的元数据集成到推荐系统中根据用户偏好个性化内容交付通过个性化推荐提高用户在社交媒体平台上的参与度

网络安全

使用生成式 AI 检测网络流量异常对类似于真实世界模式的合成数据进行训练增强网络安全，抵御威胁改进入侵检测和响应

金融服务

实时整合各种市场数据使用生成式 AI 聚合来自各种来源的数据实现明智的决策和交易执行不断更新策略以应对不断变化的市场条件改善投资成果和风险管理

使用 AI 和 ML 确保数据的准确性和一致性

在当今数据驱动的世界中，组织难以维护准确可靠的数据。AI 和 ML 有助于检测异常、识别错误并自动执行清洁过程。让我们更仔细地研究一下这些模式。

验证和数据清理

数据验证和清理通常是一项艰巨的任务，需要大量的时间和资源。人工智能驱动的工具可以简化和加快这些流程。机器学习算法从过去的数据中学习，以自动识别和修复常见的质量问题。他们可以标准化格式、填充缺失值并协调不一致之处。自动执行这些任务可以减少错误并加快数据准备速度。

发现模式和见解

AI 和 ML 算法可以发现数据集中隐藏的模式、趋势和相关性。通过分析大量数据，这些算法可以识别人类分析师可能不明显的关系。人工智能和机器学习还可以了解数据质量问题的根本原因，并制定解决这些问题的策略。例如，ML 算法可以识别导致数据不一致的常见错误或模式。然后，组织可以实施新的流程来改进数据收集、增强数据输入指南或确定员工培训需求。

数据异常

AI 和 ML 算法揭示了数据集中隐藏的模式、趋势和相关性，分析大量数据以发现人类不容易发现的见解。他们还了解数据质量问题的根本原因，识别导致不一致的常见错误或模式。这使组织能够实施新的流程，例如改进数据收集方法或加强员工培训，以解决这些问题。

检测数据中的异常情况

ML 模型擅长检测模式，包括与规范的偏差。借助 ML，组织可以分析大量数据，将其与已建立的模式进行比较，并标记潜在问题。然后，组织可以识别异常情况，并确定如何更正、更新或扩充其数据，以确保其完整性。

让我们看一下可以验证数据和检测异常的服务。

使用流分析检测异常情况

Azure 流分析、AWS Kinesis 和 Google Cloud Dataflow 是在云和边缘提供内置异常检测功能的工具示例，可实现供应商中立的解决方案。这些平台为异常检测提供了各种功能和运算符，允许用户监控异常，包括临时和持久性异常。

例如，根据我使用流分析生成验证的经验，以下是要考虑的几个关键操作：

随着滑动窗口中数据的增加，模型的准确性会提高，并在时间范围内将其视为预期。它专注于窗口中的事件历史记录以发现异常，并在移动时丢弃旧值。函数通过比较过去的数据并识别置信水平内的异常值来建立基线正态值。根据实际培训所需的最小事件设置窗口大小。响应时间随着历史记录大小的增加而增加，因此仅包含必要的事件以获得更好的性能。基于 ML，您可以使用 AnomalyDetection_SpikeAndDip 运算符监控时间序列事件流中的临时异常，如峰值和低谷。如果同一滑动窗口中的第二个峰值小于第一个峰值，则与指定置信水平内的第一个峰值相比，其分数可能不够显著。若要解决此问题，请考虑调整模型的置信度。但是，如果收到太多警报，请使用更高的置信区间。利用生成式 AI 进行数据转换和增强

生成式 AI 有助于数据增强和转换，这也是数据验证过程的一部分。生成模型可以生成类似于实际数据样本的合成数据。当可用数据集较小或需要更多多样性时，这可能特别有用。还可以训练生成模型，以将数据从一个领域转换为另一个领域，或者在保留其基本特征的同时转换数据。

例如，像转换器这样的序列到序列模型可以在 NLP 中用于语言翻译或文本摘要等任务，从而有效地将输入数据转换为不同的表示形式。此外，数据转换过程可用于解决基于旧代码库的遗留系统中的问题。组织可以通过过渡到现代编程语言来释放许多好处。例如，遗留系统建立在过时的编程语言上，如 Cobol、Lisp 和 Fortran。为了现代化和提高它们的性能，我们必须使用最新的高性能和复杂的编程语言（如 Python、C# 或 Go）迁移或重写它们。

让我们看看下图，看看如何使用生成式 AI 来促进此迁移过程：

图 1.使用生成式 AI 重写遗留代码

上述体系结构基于以下组件和工作流：

Azure 数据工厂是用于数据业务流程和转换的主要 ETL（提取、转换、加载）。它连接到源存储库 Git 存储库。或者，我们可以使用 AWS Glue 进行数据集成，并使用 Google Cloud Data Fusion 进行 ETL 数据操作。OpenAI 是用于将 Cobol 和 C++ 转换为 Python、C# 和 Golang（或任何其他语言）的生成式 AI 服务。OpenAI 服务已连接到数据工厂。OpenAI 的替代品是 Amazon SageMaker 或 Google Cloud AI Platform。Azure 逻辑应用和 Google Cloud Functions 是提供数据映射和文件管理功能的实用工具服务。DevOps CI/CD 提供用于验证、编译和解释生成的代码的管道。数据验证和 AI：聊天机器人呼叫中心用例

自动化呼叫中心设置是演示数据验证的绝佳用例。以下示例为呼叫中心提供自动化和数据库解决方案：

图2. 呼叫中心聊天机器人架构

自动化和数据库解决方案从部署在呼叫中心的语音机器人或与真人的交互中提取数据。然后，它使用 OpenAI 的 ChatGPT 和 AI 情感分析服务存储、分析和验证这些数据。随后，使用商业智能（BI）仪表板对分析的数据进行可视化，以获得全面的见解。处理后的信息也被集成到客户关系管理（CRM）系统中，以便人工验证和进一步行动。

该解决方案通过利用先进的 NLP 模型 ChatGPT 确保准确理解和解释客户互动。使用 BI 仪表板可提供直观的交互式数据可视化功能，使利益相关者能够一目了然地获得可操作的见解。将分析数据集成到 CRM 系统中，可以实现自动分析和人工验证之间的无缝协作。

结论

在不断发展的企业 AI 环境中，实现卓越数据至关重要。提供数据分析、ETL 和 NLP 的数据和生成式 AI 服务可实现强大的集成策略，以释放数据资产的全部潜力。通过将数据驱动的方法与先进技术相结合，企业可以通过这些人工智能和数据服务为增强决策、生产力和创新铺平道路。

原文标题：Achieving Data Excellence: How Generative AI Revolutionizes Data Integration

原文链接：https://dzone.com/articles/achieving-data-excellence-generative-ai

作者：Boris Zaikin

编译：LCR

世良情感网

实现卓越数据：生成式AI如何彻底改变数据集成

智能真的很好说