在2003年的歌曲《New Boy》中,朴树唱道:“快来吧奔腾电脑,就让它们代替我来思考”。这句歌词表达了当时对未来科技的美好憧憬,即电脑可能有一天能够替人类思考,尽管我们明白真实情况远比这复杂。然而,这一梦想也反映了人类对于科技辅助生活的持续追求。
其实,从20世纪40年代和50年代开始,计算机科学和人工智能的先驱们就开始探索使计算机模拟人类思维过程的可能性。随着ChatGPT的兴起,计算机系统在理解自然语言和处理复杂问题方面取得了显著进步,让我们距离想象中的“电脑辅助思考”的未来又近了一步。
GPT-4的诞生,给了他从业30年来的最大震撼
20多年前,有一位大学博士生就在研究基于计算机的问答系统,受限于当时的技术条件,他使用的是基于规则的系统,而非神经网络。博士毕业后,他加入了当时美国第四大搜索引擎Ask.com,这家公司也在做很酷的事情,就是利用自然语言处理技术来回答用户的问题。
只不过,这家公司的技术也是基于传统机器学习的技术,而非神经网络技术,实际效果可想而知。而后,以谷歌为代表的公司取得了搜索引擎市场的胜利。而这位博士生负责处理Ask.com的数据相关工作,管理着有1000个节点的分布式集群,阴差阳错成了硅谷最早一批做大数据的人。
智领云CEO 彭锋
十几年后,他凭借在大数据领域的积累,与志同道合的几位大数据专家成立了智领云,并出任CEO,他就是彭锋。回想起Ask.com的工作经历时,他认为,用自然语言问问题符合用户的习惯,但当用大数据分析出用户感兴趣的热点问题后,却苦恼于无法做出回答。
在成立智领云之前,彭锋还一度就职于著名的社交媒体网站Twitter,负责Twitter大数据平台的建设工作,这段经历让他意识到云原生架构的重要性,在容器云原生技术方兴未艾时,用云原生DataOps为核心理念成立智领云。
2017年,智领云成为国内最早提出DataOps概念并有落地方案的公司,2018年,美国才有了相关概念。而在国内,当时国内用户对于Kubernetes的接受度远没有现在这么高,基于Kubernetes来提供大数据专业服务的公司更是屈指可数,智领云是其中一个。
过去几年中,智领云与国内大部分头部Kubernetes厂商,例如道客云、博云、青云等等,都展开了合作关系,在Kubernetes集群上提供云原生数据平台产品。从彭锋的介绍中了解到,目前客户都是以行业头部企业为主,这些企业对技术要求都比较高,其规模都比较大。
或许是因为过往的经历,2023年横空出世的GPT-4让彭锋大受震撼。彭锋表示,这是他编程30多年,从事IT行业以来对他震撼最大的一件事。在他看来,GPT-4的影响力甚至比互联网对整个行业的影响更大。
智领云:以大模型重塑企业数据处理
震撼之余,彭锋开始想一个问题:我们做数据相关的工作是为了什么?
问题的答案看起来也很明确,无非就是为了让企业的运营和管理效率更高,能够用来帮助企业降本增效,更好地服务客户。
在没有GPT-4这样的大模型之前,经常需要开发者写出复杂的SQL语句,需要一套复杂的流程,需要专门的商业智能(BI)专家来深入分析,以便识别效率低下的环节,提高客户满意度,精确地定位需求,并提供符合或定制化的产品解决方案。
在有了大模型之后,数据的使用方式将会发生巨大变化。彭锋认为,以后就很少需要写SQL语句了,无论是企业领导、公司客户、还是企业内部任何部门的员工,所有人都可以直接用自然语言问问题,大模型可以直接给出问题的答案,让数据说话。
大模型本身的能力很强,但只有大模型是远远不够的。
在彭锋看来,大模型负责决策,在决策之前,还需要与底层其他数据处理组件集成,以获取所需的数据。同时,当大模型完成决策后,还需要通过特定机制来执行决策,将决策转化为可执行的代码。其中,Kubernetes等容器相关技术可被用作执行决策的“手和脚”。
彭锋的介绍让我们意识到,容器化技术是大模型在企业中落地的关键,大模型与容器技术的结合意味着更高的标准化、灵活性和效率,使得大模型应用更加易于部署和管理,尤其在企业级应用中。
彭锋认可比较新颖的“大模型操作系统”的概念。这个概念中,大模型是类似于CPU的存在,围绕CPU需要建立一个包含数据处理、存储和执行等功能的完整生态系统。面对大模型这种新技术浪潮,智领云要基于Kubernetes技术生态做数据处理的部分,重塑数据处理流程。
大模型在企业落地的切入点
智领云在云原生技术和DataOps方面的积累,可以帮助企业构建适合大模型的数据处理平台。考虑到要将大模型在企业落地,不得不正视目前大模型技术存在一些局限性:
首先是输出的标准化问题。大模型生成的结果是自然语言形式的,导致输出格式可能不稳定,今天的输出格式可能与明天的不同。这在需要标准化输出的商业逻辑中造成了困难。
第二,知识的边界问题:大模型的核心原理是基于Token之间的距离来编码知识,这意味着知识处理能力受限于模型的Token Space。如果所需知识不在模型的Token Space内,模型则无法处理这类问题。
第三,处理实时或最新数据的能力。大模型的训练过程复杂且耗时,导致它难以实时更新或处理最新数据,模型本身有滞后性。
第四,知识来源的不透明性。大模型将大量数据压缩为一个内部的“世界模型”,但这个模型无法指明特定知识点的来源,导致所生成的回答没有写明出处,可能缺乏可验证性。
第五,权限控制的缺失。在企业级应用中,不同部门拥有的不同的知识可能需要不同的访问权限。大模型本身缺乏实现细粒度权限控制的机制。
第六,幻觉问题。大模型可能生成错误或虚假的信息(即“幻觉”),在没有确切知识来源验证的情况下,这些信息可能导致误解或错误决策。
对此,彭锋认为,Retrieval Augmented Generation (RAG) 技术可以用来解决大模型的一些局限性问题。
比如,通过导入一些文档,可以立马提高大模型的实时数据处理能力;基于文档构建知识库之后,能追溯到知识点的来源,解决知识来源不透明的问题,同时也有助于解决“幻觉问题”;此外,如果将上传给RAG的文档按角色进行权限管理的话,也能解决大模型的权限控制问题。
RAG技术的基本原理很简单,但想要做好还有很多问题要解决,比如,如何找到跟问题相关性最高的文档,在技术实践上还是颇有挑战的一件事。
得益于原来在利用容器云原生技术构建数据流水线方面的经验,智领云可以更轻松地围绕大模型构建新的文档数据流水线。在云原生环境中,把企业的文档生成知识库,基于知识库精准回答各种问题。
彭锋表示,智领云方案的主要优势在于文档的预处理和结构解析,它可以提高回答的准确率,能更准确地找到文件的出处,在一些场景的初步实验中取得了不错的效果。基于这样的文档处理流水线可以高效支持类似于RAG,Agent的各种LLM应用范式。
大模型带来了很多新的机会,而智领云也将推出一款全新的产品,利用大模型技术来重塑文档管理系统,提高企业处理文档的效率和准确性。让用户用自然语言提出问题,得到具体的答案,获得一种让电脑来辅助思考的能力。