成为生成式AI开发人员的4个步骤

智能真的很好说 2024-03-08 01:28:55

在这篇文章中,我们将介绍生成式 AI 开发人员的工作、您需要掌握哪些工具以及如何开始。

介绍

OpenAI 首席执行官 Sam Altman 在 2023 年 10 月的 OpenAI 开发者日上展示了产品使用数据。OpenAI 考虑三个客户群:开发人员、企业和普通用户。友情链接: https://www.youtube.com/watch?v=U9mJuUkhUzk&t=120s

在 2023 年 10 月的 OpenAI 开发者日上,OpenAI 首席执行官 Sam Altman 展示了三个不同客户群(开发人员、企业和普通用户)的产品使用情况幻灯片。

在本文中,我们将重点介绍开发人员细分市场。我们将介绍生成式 AI 开发人员的工作、这项工作需要掌握哪些工具以及如何开始。

第 1 步:了解生成式 AI 开发人员的工作

虽然有几家公司致力于制作生成式人工智能产品,但大多数生成式人工智能开发人员都位于其他公司,这些公司并不是传统的重点。

其原因是生成式人工智能具有适用于广泛业务的用途。生成式 AI 的四种常见用途适用于大多数企业。

聊天机器人

Image Generated by DALL·E 3

虽然聊天机器人十多年来一直是主流,但其中大多数都很糟糕。通常,与聊天机器人最常见的第一次互动是询问它是否可以与人类交谈。

生成式人工智能的进步,特别是大型语言模型和向量数据库的进步,意味着这不再是事实。现在聊天机器人可以让客户愉快地使用,每家公司都在忙于(或至少应该忙于)争先恐后地升级它们。

《麻省理工科技评论》上的文章《生成式人工智能对聊天机器人的影响》很好地概述了聊天机器人世界的变化。

语义搜索

搜索被广泛用于各种地方,从文档到购物网站再到互联网本身。传统上,搜索引擎大量使用关键字,这就产生了一个问题,即搜索引擎需要编程才能识别同义词。

例如,考虑尝试搜索营销报告以查找有关客户细分的部分的情况。您按 CMD+F,键入“segmentation”,然后循环浏览命中,直到找到某些内容。不幸的是,您错过了文档作者编写“分类”而不是“细分”的情况。

语义搜索(按意义搜索)通过自动查找具有相似含义的文本来解决这个同义词问题。这个想法是,你使用一个嵌入模型——一种深度学习模型,根据文本的含义将文本转换为数值向量——然后找到相关的文本只是简单的线性代数。更好的是,许多嵌入模型允许其他数据类型(如图像、音频和视频)作为输入,从而允许您为搜索提供不同的输入数据类型或输出数据类型。

与聊天机器人一样,许多公司正试图通过利用语义搜索来提高其网站搜索能力。

这篇来自 Milvus 向量数据库制造商 Zillus 的语义搜索教程很好地描述了这些用例。

个性化内容

Image Generated by DALL·E 3

生成式 AI 使内容创作成本更低。这使得为不同的用户组创建量身定制的内容成为可能。一些常见的示例是根据您对用户的了解更改营销文案或产品描述。您还可以提供本地化,使内容与不同的国家/地区或人口统计数据更相关。

Salesforce 首席数字布道师 Vala Afshar 撰写的这篇关于如何使用生成式 AI 平台实现超个性化的文章介绍了使用生成式 AI 个性化内容的好处和挑战。

软件的自然语言界面

随着软件变得越来越复杂和功能越来越齐全,用户界面变得臃肿,充斥着用户找不到或不知道如何使用的菜单、按钮和工具。自然语言界面,用户想要在句子中解释他们想要什么,可以显着提高软件的可用性。“自然语言界面”可以指控制软件的口头或键入方式。关键是您可以使用标准的人类可理解的句子。

商业智能平台是其中的一些早期采用者,其自然语言界面可帮助业务分析师编写更少的数据操作代码。然而,这方面的应用是相当无限的:几乎每个功能丰富的软件都可以从自然语言界面中受益。

Omega Venture Partners 的创始人兼管理合伙人 Gaurav Tewari 撰写的这篇关于拥抱 AI 和自然语言界面的福布斯文章,对自然语言界面为何有助于软件可用性进行了通俗易懂的描述。

第 2 步:了解生成式 AI 开发人员使用的工具

首先,你需要一个生成式 AI 模型!对于文本,这意味着一个大型语言模型。GPT 4.0 是当前性能的黄金标准,但有许多开源替代品,如 Llama 2、Falcon 和 Mistral。

其次,你需要一个向量数据库。Pinecone 是最受欢迎的商业矢量数据库,还有一些开源的替代品,如 Milvus、Weaviate 和 Chroma。

在编程语言方面,社区似乎已经围绕 Python 和 JavaScript 安顿下来。JavaScript 对 Web 应用程序很重要,而 Python 适合其他所有人。

最重要的是,使用生成式 AI 应用程序框架很有帮助。两个主要的竞争者是LangChain和LlamaIndex。LangChain 是一个更广泛的框架,允许您开发各种生成式 AI 应用程序,而 LlamaIndex 更专注于开发语义搜索应用程序。

如果您正在制作搜索应用程序,请使用 LlamaIndex;否则,请使用 LangChain。

值得注意的是,格局变化非常快,每周都会出现许多新的人工智能初创公司,以及新的工具。如果要开发应用程序,则需要比其他应用程序更频繁地更改软件堆栈的某些部分。

特别是,新模型会定期出现,最适合您的用例的模型可能会发生变化。一个常见的工作流程是开始使用 API(例如,用于 API 的 OpenAI API 和用于矢量数据库的 Pinecone API),因为它们的开发速度很快。随着用户群的增长,API 调用的成本可能会变得繁重,因此此时,您可能希望切换到开源工具(Hugging Face 生态系统在这里是一个不错的选择)。

第 3 步:学习一些入门技能

与任何新项目一样,从简单开始!最好一次学习一个工具,然后弄清楚如何将它们组合在一起。

第一步是为您要使用的任何工具设置帐户。您需要开发人员帐户和 API 密钥才能使用这些平台。

OpenAI API 初学者指南:动手教程和最佳实践包含有关设置 OpenAI 开发人员帐户和创建 API 密钥的分步说明。

同样,《使用 Pinecone 掌握矢量数据库教程:综合指南》包含设置 Pinecone 的详细信息。

什么是拥抱脸?AI 社区的开源绿洲解释了如何开始使用 Hugging Face。

学习法学硕士

要开始以编程方式使用 GPT 等 LLM,最简单的方法是学习如何调用 API 来发送提示和接收消息。

虽然许多任务可以通过与LLM的单次来回交换来实现,但像聊天机器人这样的用例需要长时间的对话。OpenAI 最近宣布了一项“线程”功能,作为其助手 API 的一部分,您可以在 OpenAI 助手 API 教程中了解该功能。

并非每个 LLM 都支持此功能,因此您可能还需要学习如何手动管理对话的状态。例如,您需要确定对话中哪些先前的消息仍与当前对话相关。

除此之外,仅处理文本时无需停止。您可以尝试使用其他媒体;例如,转录音频(语音到文本)或从文本生成图像。

学习向量数据库

向量数据库最简单的用例是语义搜索。在这里,您使用嵌入模型(请参阅使用 OpenAI API 进行文本嵌入简介),该模型将文本(或其他输入)转换为表示其含义的数值向量。

然后,将嵌入的数据(数值向量)插入到向量数据库中。搜索只是意味着编写一个搜索查询,并询问数据库中的哪些条目与你所请求的内容最接近。

例如,您可以获取有关公司产品之一的一些常见问题解答,嵌入它们,然后将它们上传到矢量数据库中。然后,您询问有关产品的问题,它将返回最接近的匹配项,从数字向量转换回原始文本。

结合 LLM 和向量数据库

您可能会发现,直接从矢量数据库返回文本条目是不够的。通常,您希望以更自然地回答查询的方式处理文本。

解决此问题的方法是一种称为检索增强生成 (RAG) 的技术。这意味着,在从向量数据库中检索文本后,您编写 LLM 的提示,然后将检索到的文本包含在提示中(使用检索到的文本扩充提示)。然后,你要求LLM写一个人类可读的答案。

在回答常见问题解答中的用户问题的示例中,您将编写一个带有占位符的提示,如下所示。

"""Please answer the user's question about {product}.---The user's question is : {query}---The answer can be found in the following text: {retrieved_faq}"""

最后一步是将您的 RAG 技能与管理消息线程的能力相结合,以保持更长的对话。瞧!你有一个聊天机器人!

第 4 步:继续学习!

DataCamp 有一系列的九个代码,教你成为一名生成式 AI 开发人员。您需要基本的 Python 技能才能开始,但所有 AI 概念都是从头开始教授的。

该系列由来自 Microsoft、Pinecone、伦敦帝国理工学院和 Fidelity(还有我!)的顶级讲师授课。

您将了解本文涵盖的所有主题,其中有六个代码,重点是 OpenAI API、Pinecone API 和 LangChain 的商业堆栈。其他三个教程侧重于 Hugging Face 模型。

在本系列结束时,您将能够创建聊天机器人并构建 NLP 和计算机视觉应用程序。

Richie Cotton 是 DataCamp 的数据布道者。他是 DataFramed 播客的主持人,他写了 2 本关于 R 编程的书,并创建了 10 门关于数据科学的 DataCamp 课程,这些课程已被超过 700 名学习者学习。

原文标题:4 Steps to Become a Generative AI Developer

原文链接:https://www.kdnuggets.com/4-steps-to-become-a-generative-ai-developer

作者:Richie Cotton

编译:LCR

0 阅读:0

智能真的很好说

简介:感谢大家的关注