生成式人工智能 (GenAI) 和大型语言模型 (LLM) 为各个行业提供了变革潜力。然而,由于其计算强度、动态行为以及可能产生不准确或不良输出,它们在生产环境中的部署面临挑战。现有的监控工具通常无法提供对管理此类应用程序至关重要的实时见解。在现有工作的基础上,本文介绍了在生产中监控 GenAI 应用程序的框架。它涉及基础设施和质量方面。
在基础架构方面,需要主动跟踪性能指标,例如成本、延迟和可扩展性。这样可以实现明智的资源管理和主动扩展决策。为确保质量和合乎道德的使用,该框架建议对幻觉、事实性、偏见、连贯性和敏感内容生成进行实时监控。
这种集成方法使开发人员能够立即发出警报和修复建议,从而能够快速干预和缓解潜在问题。通过将性能和面向内容的监控相结合,该框架促进了生成式 AI 在生产环境中的稳定、可靠和合乎道德的部署。
介绍在 LLM 的强大功能的推动下,GenAI 的功能正在迅速改变我们与技术交互的方式。从生成非常像人类的文本到创建令人惊叹的视觉效果,GenAI 应用程序正在进入不同的生产环境。各行各业正在利用这种潜力进行内容创建、客户服务聊天机器人、个性化营销甚至代码生成等用例。然而,从有前途的技术到这些模型的可操作性仍然是一个巨大的挑战[1]。
确保 GenAI 应用程序的最佳性能需要仔细管理与模型推理相关的基础设施成本、成本和主动扩展措施,以应对需求波动。维护用户体验需要密切关注响应延迟。同时,LLM生成的输出质量至关重要。开发人员必须努力应对潜在的事实错误、有害偏见的存在以及模型生成有毒或敏感内容的可能性。这些挑战需要一种超越传统工具的量身定制的监测方法。
需要实时洞察基础设施运行状况和输出质量,这对于在生产中可靠和合乎道德地使用 GenAI 应用程序至关重要。本文通过提出专门用于实时监控生产中 GenAI 应用程序的解决方案来满足这一关键需求。
当前限制近年来,人工智能系统的监控和治理引起了人们的极大关注。关于人工智能模型监控的现有文献通常集中在监督学习模型上[2]。这些方法解决了分类或回归任务中的性能跟踪、偏移检测和调试问题。可解释人工智能(XAI)的研究也为解释模型决策提供了见解,特别是对于黑盒模型[3]。该领域试图解开这些复杂系统的内部运作,或为输出提供事后理由[4]。此外,关于偏差检测的研究探索了识别和减轻训练数据或模型设计中可能产生的歧视模式的技术[5]。
虽然这些领域提供了坚实的基础,但它们并不能完全解决基于 LLM 的监控和评估生成式 AI 应用程序的独特挑战。在这里,重点从传统的分类或回归指标转移到开放式生成。评估LLM通常涉及专门的技术,如人工判断或与参考数据集进行比较[6]。此外,标准监控和 XAI 解决方案可能无法针对跟踪 GenAI 中普遍存在的问题进行优化,例如幻觉、实时偏差检测或对代币使用和成本的敏感性。
最近有一些工作可以帮助解决这一挑战[8],[9]。本文建立在这些相关领域的先前工作基础上,同时提出了一个专门为生产GenAI应用程序的实时监控需求而设计的框架。它强调基础设施和质量监控的集成,能够及时检测基于 LLM 的应用程序特有的各种潜在问题。
本文重点介绍利用模型即服务 (MLaaS) 产品监控生成式 AI 应用程序,例如 Google Cloud 的 Gemini、OpenAI 的 GPT、Amazon Bedrock 上的 Claude 等。虽然核心监视原则仍然适用,但自托管 LLM 需要额外的考虑。这些因素包括模型优化、加速器(例如 GPU)管理、基础设施管理、扩展等,这些因素超出了本讨论的范围。此外,本文重点介绍文本到文本模型,但这些原则也可以扩展到其他模式。后续部分将重点介绍用于捕获这些指标的各种指标、技术和架构,以了解 LLM 在生产中的行为。
应用程序监控监控生成式 AI 应用程序的性能和资源利用率对于确保其在生产环境中的最佳运行和成本效益至关重要。本节深入探讨了 GenAI 应用程序监控的关键组件,特别关注成本、延迟和可扩展性注意事项。
成本监控和优化与部署 GenAI 应用程序相关的成本可能很高,尤其是在利用 MLaaS 产品时。因此,精细的成本监控和优化至关重要。以下是一些需要关注的关键指标:
精细成本跟踪MLaaS 提供商通常根据 API 调用次数、使用的令牌、模型复杂性和数据存储等因素收费。在这种详细程度上跟踪成本可以精确了解成本动因。对于 MLaaS LLM,输入和输出字符/令牌计数可能是成本的关键驱动因素。大多数模型都有分词器 API 来计算任何给定文本的字符/标记。这些 API 可以帮助了解监控和优化推理成本的使用情况。以下是为 Google Cloud 的 Gemini 模型生成计费字符数的示例。
蟒
import vertexaibrfrom vertexai.generative_models import GenerativeModelbrbrdef generate_count(project_id: str, location: str) -> str:br # Initialize Vertex AIbr vertexai.init(project=project_id, location=location)brbr # Load the modelbr model = GenerativeModel("gemini-1.0-pro")brbr # prompt tokens countbr count = model.count_tokens("how many billable characters are here?"))brbr # response total billable charactersbr return count.total_billable_charactersbrbrgenerate_count('your-project-id','us-central1')使用模式分析与代币效率分析代币使用模式在优化 GenAI 应用程序的运营成本和用户体验方面起着关键作用。云提供商通常会施加每秒令牌配额,持续超过这些限制可能会降低性能。虽然配额增加是可能的,但往往有硬性限制。对于超出这些阈值的使用,可能需要进行创意资源管理。对一段时间内代币使用情况的全面分析有助于确定成本优化的途径。请考虑以下策略:
提示优化:重写提示以减小其大小可以减少令牌消耗,并且应该是优化工作的主要重点。模型调整:在精心策划的数据集上微调的模型可以通过较小的提示提供类似甚至更出色的性能。虽然一些提供商对基本型号和调整型号收取类似的费用,但调整型号也存在溢价定价模式。在做出决定之前,人们需要认识到这些。在某些情况下,模型调整可以显著降低令牌使用和相关成本。检索增强生成: 结合信息检索技术可以通过战略性地限制输入模型的数据来帮助减小输入令牌大小,从而可能降低成本。更低的模型利用率: 当较小的模型与高质量的数据结合使用时,它不仅可以实现与大型模型相当的性能,而且还提供了令人信服的成本节约策略。本文前面提供的令牌计数分析代码示例有助于了解和优化令牌使用。值得注意的是,调整模型的定价模型因 MLaaS 提供商而异,这凸显了在选择过程中仔细定价分析的重要性。
延迟监控在 GenAI 应用程序的上下文中,延迟是指用户提交请求和接收模型响应之间经过的总时间。确保最小的延迟对于保持积极的用户体验至关重要,因为延迟会显着降低感知响应能力和整体满意度。本节深入探讨了 GenAI 应用程序的可靠延迟监控的基本组件。
实时延迟测量实时跟踪端到端延迟至关重要。这需要测量以下组件:
网络延迟: 数据在用户设备和基于云的 MLaaS 服务之间传输所花费的时间。模型推理时间:LLM 处理输入并生成响应所需的实际时间。前/后处理开销: 在模型执行之前为数据准备和格式化响应以进行交付所花费的任何其他时间。对用户体验的影响了解延迟与用户行为之间的相关性对于优化应用程序至关重要。要分析的关键用户满意度指标包括:
跳出率: 在查看单次交互后离开网站或应用程序的用户所占的百分比。会话持续时间:用户与应用程序互动所花费的时间长度。转化率:(如适用)完成所需操作(例如购买或注册)的用户比例。识别瓶颈查明延迟的主要来源对于有针对性的修复至关重要。需要调查的潜在瓶颈领域包括:
网络性能: 带宽不足、DNS 解析速度慢或网络拥塞会显著增加网络延迟。模型架构:大型复杂模型的推理时间可能更长。很多时候,使用更小的模型、更高质量的数据和更好的提示可以帮助产生必要的结果。输入/输出处理效率低下:未经优化的数据处理、编码或格式化可能会增加整个过程的开销。MLaaS 平台因素:MLaaS 平台上的服务端性能波动可能会影响延迟。主动延迟监控对于在生产环境中保持 GenAI 应用程序的响应能力和用户满意度至关重要。通过了解延迟的组成部分,分析其对用户体验的影响,并战略性地识别瓶颈,开发人员可以做出明智的决策来优化他们的应用程序。
可扩展性监控GenAI 应用程序的生产级部署需要能够优雅地处理需求波动。定期的负载和压力测试对于评估系统在现实和极端流量场景下的可扩展性和弹性至关重要。这些测试应模拟不同的使用模式、逐渐增加的负载、峰值负载模拟和持续负载。主动可伸缩性监控至关重要,尤其是在利用具有 LLM 硬配额限制的 MLaaS 平台时。本节概述了在这些约束条件下进行有效可伸缩性监视的关键指标和策略。
自动缩放配置利用 MLaaS 平台提供的自动缩放功能对于动态资源管理至关重要。主要考虑因素包括:
指标:确定将触发扩展事件的主要指标(例如,响应时间、每秒 API 请求数、错误率)。根据性能目标设置适当的阈值。伸缩策略:定义根据需求变化添加或删除资源的速度。考虑启动其他模型实例所需的时间等因素。冷却时间:在缩放事件后实施冷却期,以防止“捶打”(快速扩展和缩减),这可能导致不稳定和成本增加。监控扩展指标在扩展事件期间,请仔细监控以下基本指标:
响应时间:确保响应时间保持在可接受的范围内,即使在缩放时也是如此,因为延迟会直接影响用户体验。吞吐量: 跟踪系统的整体吞吐量(例如,每分钟的请求数),以衡量其处理传入请求的能力。错误率:监视由于资源不足或扩展过程中可能出现的瓶颈而导致的错误率增加。资源利用率: 观察 CPU、内存和 GPU 利用率,以确定潜在的资源限制。MLaaS 平台的硬配额限制为扩展 GenAI 应用程序带来了独特的挑战。解决这一问题的策略包括:
缓存:对经常请求的提示对模型输出进行策略性缓存,以减少模型调用的次数。配料:整合多个请求并批量处理,优化资源使用。负载均衡:在负载均衡器后面的多个模型实例之间分配流量,以最大限度地提高可用配额内的利用率。混合部署:考虑一种混合方法,其中要求较低的请求由 MLaaS 模型提供服务,而超出配额的请求则由自承载部署处理(假设有必要的专业知识)。主动应用监控,包括成本、延迟和可扩展性方面,是 GenAI 应用在生产中成功部署和高性价比运行的基础。通过实施上述策略,开发人员和组织可以获得关键的见解,优化资源使用,并确保其应用程序的响应能力,从而增强用户体验。
内容监控确保生产中 GenAI 应用程序的质量和道德完整性需要强大的内容监控策略。本节介绍幻觉检测、准确性问题、有害偏见、缺乏连贯性以及敏感内容的生成。
幻觉检测减轻 LLM 生成看似合理但不正确的信息的趋势对于它们在生产环境中的道德和可靠部署至关重要。本节深入探讨了利用多个 LLM 来增强幻觉检测的接地技术和策略。
人机交互为了解决基于 LLM 的应用程序中固有的幻觉问题,人机交互方法提供了两种关键的实现策略:
最终用户反馈: 结合直接反馈机制,例如竖起大拇指/竖起大拇指的评级和详细文本反馈的选项,为LLM的输出提供了宝贵的见解。这些数据允许连续的模型改进,并精确定位幻觉可能普遍存在的区域。最终用户反馈创建了一个协作循环,随着时间的推移,可以显着提高 LLM 的准确性和可信度。人工审核抽样: 随机抽取一部分 LLM 生成的输出,并对其进行严格的人工审查,建立了质量控制机制。人类专家可以识别自动化系统可能遗漏的细微幻觉、偏见或事实不一致。这个过程对于保持高标准的输出至关重要,特别是在精度至关重要的应用中。实施这些 HITL 策略可以促进人类和 LLM 之间的共生关系。它利用人类的专业知识来指导和纠正 LLM,从而逐步获得更可靠和更符合事实的输出。这种方法在准确性和没有误导性信息至关重要的领域尤为重要。
以第一方和可信数据为基础将 GenAI 应用程序的输出锚定在可靠的数据源中,为幻觉检测提供了一种强大的方法。这种方法是必不可少的,尤其是在处理特定于域的内容或需要可验证事实的场景时。技术包括:
具有事实约束的提示工程:仔细构建包含特定领域知识的提示,引用外部数据,或明确要求模型遵循已知的事实上下文。例如,总结事实文档的提示可以包括以下说明:“将摘要限制为文档中明确提及的信息。检索增强生成:使用可信数据集增强 LLM,这些数据集优先考虑事实准确性和对所提供信息的遵守。这有助于减少模型捏造信息的整体倾向。结合外部接地源: 利用旨在访问和处理第一方数据、可信知识库或真实世界信息的 API 或服务。这允许系统交叉验证模型的输出并标记潜在的差异。例如,财经新闻摘要任务可以与API相结合,API提供最新的股票市场数据以进行准确性验证。基于 LLM 的输出评估: 可以利用 LLM 的独特功能来评估生成文本的事实一致性。策略包括:自一致性检查:这可以通过多步骤生成来实现,其中任务被分解为更小的步骤,并检查后续输出是否与先前的输出相矛盾。例如,要求模型首先概述文档的关键点,然后生成完整的摘要,可以验证摘要是否与这些关键点一致。或者,以不同的格式改写原始提示并比较结果的输出可以揭示表明捏造信息的不一致之处。跨模型比较: 将一个 LLM 的输出作为提示输入到具有潜在互补优势的另一个 LLM。分析后续输出之间的任何不一致或矛盾,这可能会揭示幻觉。跟踪幻觉的指标: 准确测量和量化LLM产生的幻觉仍然是一个活跃的研究领域。虽然信息检索和分类等领域的既定指标提供了基础,但幻觉检测的独特性需要调整现有指标并开发新的指标。本节提出了一套多方面的指标,包括创造性地适应此上下文的标准指标,以及专门设计用于捕捉幻觉文本细微差别的新指标。重要的是,我鼓励从业者根据其业务领域的特定敏感性定制这些指标。特定领域的知识对于制定符合每个 GenAI 部署独特要求的指标集至关重要。考虑因素和未来方向特异性与开放性接地技术在需要事实精确度的任务中非常有效。然而,在期望新颖性的更具创造性的领域,严格的基础可能会阻碍模型产生原创想法的能力。
数据质量任何接地策略的可靠性都取决于所使用的外部数据源的质量和可信度。根据精心策划的第一方数据或信誉良好的知识库进行验证至关重要。
计算开销事实检查、数据检索和多模型评估可能会带来额外的延迟和成本,在生产环境中需要仔细考虑。
不断发展的评估技术使用LLM进行语义分析和一致性检查的研究正在进行中。利用LLM进行幻觉检测的更复杂的技术可能会出现,进一步增强它们在这项任务中的效用。
接地和跨模型评估为对抗 GenAI 输出中的幻觉提供了强大的工具。这些技术被战略性地使用,可以提高这些应用程序的事实准确性和可信度,促进它们在实际场景中的可靠部署。
偏置监控LLM中的偏见问题是一个复杂而紧迫的问题,因为这些模型有可能延续或放大其训练数据中存在的有害刻板印象和歧视性模式。主动偏见监控对于确保 GenAI 在生产中的合乎道德和包容性的部署至关重要。本节探讨了数据驱动的、可操作的偏差检测和缓解策略。
公平性评估工具包专门的库和工具包为LLM输出中的偏差评估提供了一个有价值的起点。虽然并非所有都是明确为LLM评估而设计的,但许多都可以针对这种情况进行调整和重新利用。请考虑以下工具:
埃奎塔斯:提供一套指标和可视化效果,用于评估不同人口统计数据中的群体公平性和偏见。此工具可用于分析基于性别、种族等敏感属性的模型输出差异([删除了无效的 URL])公平测试: 能够识别和调查模型输出中的潜在偏差。它可以分析是否存在歧视性语言或对受保护群体的差别待遇。([删除了无效的 URL])实时分析在生产环境中,实时偏置监控至关重要。策略包括:
关键字和短语跟踪: 监视历史上与有害偏见或刻板印象相关的特定单词、短语或语言模式的输出。根据敏感域和与应用程序相关的潜在风险定制这些列表。偏差发现的动态提示: 使用精心构建的输入系统地测试模型,以揭示潜在的偏差。例如,修改提示以改变性别、种族或其他属性,同时保持任务一致,并观察模型的输出是否表现出偏见。缓解策略当发现偏倚时,及时干预至关重要。请考虑以下操作:
提醒: 实施警报系统,以标记可能有偏见的输出,以供人工审查和干预。根据偏差的严重性及其潜在影响校准这些警报的敏感性。过滤或修改:在敏感应用中,考虑自动过滤高度偏置的输出或修改以消除有害语言。这些措施必须与限制有效和公正言论的可能性相平衡。人机交互:整合人工审核员,进行细致入微的偏见评估并确定适当的缓解措施。这可能包括重新提示模型、为微调提供反馈或升级关键问题。重要考虑因素不断发展的标准:偏见检测与上下文相关,有害言论的定义会随着时间的推移而演变。监测系统必须保持适应性。交叉性:偏见可以跨越多个轴(例如,种族、性别、性取向)。监测策略需要考虑到这种复杂性。GenAI 应用中的偏置监控是一项多方面且持续的工作。通过结合专门的工具包、实时分析和深思熟虑的缓解策略,开发人员可以致力于实现更具包容性和公平的 GenAI 系统。
连贯性和逻辑评估确保GenAI输出的内部一致性和逻辑流程对于维护用户信任和避免无意义的结果至关重要。本节提供无监督一致性和逻辑评估技术,适用于各种基于 LLM 的大规模任务。
语义一致性检查语义相似性分析计算生成文本的不同片段(例如,句子、段落)之间的语义相似性。相似性得分低可能表明缺乏主题凝聚力或主题突然变化。
实现利用预训练的句子嵌入模型(例如,句子转换器)来计算文本块之间的相似性分数。
蟒
from sentence_transformers import SentenceTransformerbrmodel = SentenceTransformer('paraphrase-distilroberta-base-v2')brbrgenerated_text = "The company's stock price surged after the earnings report. Cats are excellent pets."brsentences = generated_text.split(".")brembeddings = model.encode(sentences)brbrsimilarity_score = cosine_similarity(embeddings[0], embeddings[1])brprint(similarity_score) # A low score indicates potential incoherence主题建模应用主题建模技术(例如 LDA、NMF)从生成的文本中提取潜在主题。输出中主题分布不一致可能表明缺乏中心主题或重点。
实现利用 Gensim 或 scikit-learn 等库进行主题建模。
逻辑推理评估蕴涵和矛盾检测评估生成文本中的连续句子是否表现出逻辑蕴涵(一个句子暗示另一个句子)或矛盾。这可以揭示推理中的不一致之处。
实现采用蕴涵模型(例如,基于 BERT 的模型,在 SNLI 或 MultiNLI 等自然语言推理数据集上进行微调)。
这些技术可以打包成用户友好的功能或模块,使没有深厚机器学习专业知识的用户免受底层复杂性的影响。
敏感内容检测由于 GenAI 能够生成非常像人类的文本,因此必须积极主动地检测其输出中的潜在敏感内容。这对于避免意外伤害、促进负责任的使用和保持对技术的信任是必要的。以下部分探讨专门设计用于大型语言模型上下文中的敏感内容检测的现代技术。这些可扩展的方法将使用户能够保护GenAI在各种应用程序中的道德实施。
透视 API 集成:Google 的 Perspective API 提供了一个预先训练的模型来识别有害评论。它可以集成到 LLM 应用程序中,以分析生成的文本,并为包含有毒内容的可能性提供分数。透视 API 可以通过 REST API 访问。下面是一个使用 Python 的示例:蟒
from googleapiclient import discoverybrimport jsonbrbrdef analyze_text(text):br client = discovery.build("commentanalyzer", "v1alpha1")br analyze_request = {br "comment": {"text": text},br "requestedAttributes": {"TOXICITY": {}},br }br response = client.comments().analyze(body=analyze_request).execute()br return response["attributeScores"]["TOXICITY"]["summaryScore"]["value"]brbrtext = "This is a hateful comment."brtoxicity_score = analyze_text(text)brprint(f"Toxicity score: {toxicity_score}")API 返回一个介于 0 和 1 之间的分数,表示毒性的可能性。可以设置阈值来标记或过滤超过特定分数的内容。
基于 LLM 的安全过滤器:像 Google 这样的主要 MLaaS 提供商提供集成到其 LLM 产品中的第一方安全过滤器。这些筛选器使用专门训练的内部 LLM 模型来检测和缓解敏感内容。使用 Google 的 Gemini API 时,会自动应用安全过滤器。您可以在设置安全护栏的情况下访问不同的创意文本格式。它们还提供第二级安全过滤器,用户可以利用这些过滤器根据一组指标应用额外的过滤器。例如,这里提到了 Google Cloud 的安全过滤器。人机交互评估:在评估过程中集成人工审核人员可以显著提高敏感内容检测的准确性。人类判断可以帮助识别自动化系统可能遗漏的细微差别和上下文因素。像 Amazon Mechanical Turk 这样的平台可用于收集对标记内容的人工判断。评估员 LLM: 这涉及使用单独的 LLM(“Evaluator LLM”)专门用于评估敏感内容的生成 LLM 的输出。此 Evaluator LLM 可以在标记为敏感内容的精选数据集上进行训练。培训评估员 LLM 需要深度学习方面的专业知识。像 Hugging Face Transformer 这样的开源库提供了工具和预训练模型来促进这一过程。另一种方法是使用通用 LLM,例如 Gemini 或 GPT,并带有适当的提示来发现敏感内容。用于表达敏感内容的语言不断发展,需要不断更新检测模型。通过结合这些可扩展的技术并仔细解决相关挑战,我们可以构建强大的系统来检测和缓解 LLM 输出中的敏感内容,确保负责任和合乎道德地部署这项强大的技术。
结论确保生成式 AI 应用程序在生产环境中的可靠、合乎道德且具有成本效益的部署需要采用多方面的监控方法。本文介绍了一个专门为实时监控 GenAI 而设计的框架,解决了基础设施和质量方面的考虑。
在基础架构方面,主动跟踪成本、延迟和可扩展性至关重要。用于分析令牌使用情况、优化提示和利用自动扩展功能的工具在管理运营费用和保持积极的用户体验方面发挥着至关重要的作用。内容监控对于保证 GenAI 应用程序的质量和道德完整性同样重要。这包括检测幻觉的技术,例如在可靠的数据源中扎根并结合人机交互验证机制。减少偏见、一致性评估和敏感内容检测的策略对于促进包容性和防止有害产出至关重要。
通过集成本文中概述的监控技术,开发人员可以更深入地了解与其 GenAI 应用程序相关的性能、行为和潜在风险。这种主动方法使他们能够采取明智的纠正措施,优化资源利用率,并最终为用户提供可靠、值得信赖和合乎道德的 AI 驱动的体验。虽然我们专注于 MLaaS 产品,但所讨论的原则可以适用于自托管 LLM 部署。
GenAI监控领域正在迅速发展。研究人员和从业者应对幻觉检测、偏差缓解和评估技术的新发展保持警惕。此外,认识到围绕生成模型中准确性限制和创造力之间的平衡的持续争论至关重要。
参考M. Korolov, “For IT leaders, operationalized gen AI is still a moving target,” CIO, Feb. 28, 2024.O. Simeone, "A Very Brief Introduction to Machine Learning With Applications to Communication Systems," in IEEE Transactions on Cognitive Communications and Networking, vol. 4, no. 4, pp. 648-664, Dec. 2018, doi: 10.1109/TCCN.2018.2881441.F. Doshi-Velez and B. Kim, "Towards A Rigorous Science of Interpretable Machine Learning", arXiv, 2017. [Online].A. B. Arrieta et al. "Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI." Information Fusion 58 (2020): 82-115.A. Saleiro et al. "Aequitas: A Bias and Fairness Audit Toolkit." arXiv, 2018. [Online].E. Bender and A. Koller, “Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data,” Proceedings of the 58th Annual Meeting of the Association for ComputationalS. Mousavi et al., “Enhancing Large Language Models with Ensemble of Critics for Mitigating Toxicity and Hallucination,” OpenReview.X. Amatriain, “Measuring And Mitigating Hallucinations In Large Language Models: A Multifaceted Approach”, Mar. 2024. [Online].原文标题:Monitoring Generative AI Applications in Production
原文链接:https://dzone.com/articles/monitoring-generative-ai-applications
作者:Amit Rai
编译:LCR