用专有数据训练大型语言模型能为你带来竞争优势吗?
尽管我们生活在一个日益数据驱动的世界中,但大多数公司并未采用数据驱动的商业模式。像Alphabet、Meta和亚马逊这样的企业凭借网络效应形成的良性循环而取得成功,但这种模式对于销售传统产品和服务的组织来说却难以实现,然而,如今已能广泛获取各种工具来充分利用日常业务流程中生成的专有数据,这些工具可能帮助你的公司形成竞争优势。
随着市场竞争的加剧,利用数据构建防御性护城河至关重要。麦肯锡估计,利用内部数据来获取销售和营销见解,可以实现高于平均水平的市场增长,并使息税折旧及摊销前利润(EBITDA)增长15%至25%。大型语言模型提供了一种新颖且独特的方法来提取这种价值,并且通过在专有数据上训练它们以实现特定的业务目标,可能会使许多公司发生转变。
数据质量优于数量
正如AI专家、谷歌前研究总监彼得·诺维格(Peter Norvig)所言:“更多数据胜过更好的算法,但更好的数据胜过更多数据。”随着通用AI模型被改编用于企业用途,这一点愈发正确。虽然前沿模型已在从互联网和其他公共来源抓取的海量数据上进行了训练,但它们用于特定业务目的的效用却有限。
为了真正实现实际效益,这些大型语言模型从数据中提取意义的能力需要与企业独有的专有数据相结合。一旦设定了业务目标,确保数据为此做好准备便是一个关键步骤。Gartner估计,为AI准备数据可以使业务成果提高20%,这意味着数据必须适合预期的使用场景,无论是结构化数据还是非结构化数据。据Gartner称,内部AI项目中有30%被放弃的一个主要原因是数据质量输入不佳,这涉及删除损坏的数据和重复数据,并填补输入不完整之处。
虽然质量是关键,但也需要有足够的数量。根据目标和大型语言模型的调整方式,这意味着至少需要数千条记录,甚至可能更多。
进行调整
使用独特的专有数据可能实现最大的竞争优势,这可能包括匿名化的客户数据和购买模式、客户反馈、网络分析以及供应链信息。开源数据也可以作为有用的补充,但顾名思义,它对所有人都是可用的,因此本身并不是区分因素。在符合隐私法规的前提下使用专有数据,还可以减少与数据主权相关的法律复杂性。
但大多数企业没有从头开始构建和训练自己特定领域模型的财力和人力资源。尽管微调现有大型语言模型所需的计算能力和数据比从头构建要少,但这仍然超出了中型企业的能力范围,需要耗费大量的时间和技能。提示微调和提示工程是最常见且最直接的方法,这些方法不需要修改模型参数,因此资源消耗要少得多,尽管需要专业技能,但相对容易采用。
实际应用
一些早期在内部数据上训练大型语言模型的部署来自大型银行和咨询公司。例如,摩根士丹利使用提示微调技术在10万套与投资银行业务流程相关的文档上训练了GPT-4,其目标是帮助财务顾问为客户提供更准确、更及时的建议。波士顿咨询公司(BCG)也采用了类似的方法,帮助其咨询顾问生成见解和为客户提供建议,同时通过一个迭代过程,根据用户反馈微调其模型,这有助于改进输出结果,并减少面向消费者的GPT中更常见的幻觉现象。
我们现在开始看到,一些技术密集度较低、以服务为导向的公司也在利用内部数据定制大型语言模型。园艺护理公司ScottsMiracle-Gro与Google Cloud合作,创建了一个由AI驱动的“园艺品鉴师”,为客户提供园艺建议和产品推荐,该系统已在公司的产品目录和内部知识库上进行训练,并将很快推广至其1000名现场销售人员,以帮助他们就价格和可用性为零售和园艺市场客户提供建议。预计根据结果,该系统随后将面向消费者推出,旨在推动销售和提高客户满意度。
正如ScottsMiracle-Gro利用AI为其传统销售目录增值一样,美国大众汽车也在其汽车手册上这样做。在车辆使用说明书上进行训练,并结合客户的联网汽车数据,这个由AI驱动的虚拟助手可以帮助驾驶员更好地了解他们的车辆,这包括提供更换轮胎的指导以及解释仪表板指示灯的含义。
随着开源模型的崛起,大型语言模型在功能集和处理能力方面日益商品化,从而降低了应用开发人员的进入门槛,数据将变得越来越重要。内容所有者已经开始反对允许OpenAI和Anthropic等公司自由收集他们的数据,这些举措将进一步凸显专有信息的价值。
各规模的公司都应明智地开始更加重视和保护其内部数据资产,并思考如何通过AI利用这些数据来获得竞争优势。正如我们所见,即便是普通的产品目录或用户手册,也是可以加以利用的有价值资产。