最新发布的Couchbase数据库增加了对矢量搜索的支持,与Llamaindex和LangChain集成,以支持检索增强生成(RAG)技术,所有这些都旨在帮助客户简化生成式人工智能应用程序的开发。
多年来,Couchbase在开发可操作数据存储方面获得了广泛的关注,该数据存储提供了事务和分析功能的混合。随着对SQL++(以前的N1QL)的支持,以及去年11月宣布添加的列数据类型,JSON存储正在随着客户需求而变化。
随着Couchbase 7.6版本发布,Couchbase客户获得了新的GenAI功能,包括向量相似度搜索、混合搜索,以及对LangChain和LlamaIndex的支持,这两个开源工具可以帮助客户将数据连接到大型语言模型(LLM)。
新的矢量搜索功能将利用直接存储在JSON文档中的矢量嵌入,为搜索提供更相关的结果。向量嵌入是数据的数学表示。在Couchbase的案例中,嵌入可以代表客户的事实,比如他们的偏好和购买历史。在运行时,LLM将调用嵌入来增强Couchbase数据库中的查询。
Couchbase负责产品管理和业务运营的高级副总裁Scott Anderson说,这一切都是为了在自适应应用程序中构建更加个性化的体验。“(自适应应用程序)将……高度情境化,能够提供高度个性化,这将允许该应用程序的最终用户获得最相关的信息。”
同时,新混合搜索功能扩大了搜索范围,包括多种数据类型,比如文本、向量、范围和地理空间数据。这将进一步帮助数据库为查询提供针对性定制的结果。
Anderson说,Couchbase的客户要求提供这些功能。在许多情况下,出于隐私和性能原因,客户希望将向量嵌入直接存储在其操作数据库中。
“我认为让嵌入模型接近数据是很重要的。”他说,“将更多这些功能与数据平台结合起来,或将其放在一起,将降低复杂性和延迟,并确保数据的隐私性。”
目前,Couchbase的客户正在试用GenAI,在某些情况下,还会使用OpenAI的GPT模型等LLM的API。然而,该公司预计,客户将越来越希望对他们的GenAI基础设施有更大的控制权,尤其是在涉及敏感数据时。
Anderson说:“你可以想象一下,在金融机构、医疗机构或特定的垂直行业,这些数据对他们来说非常有价值,他们希望将人工智能的力量带到这些数据中,这将使嵌入模型在他们的环境控制范围内,而不是访问可能失去对底层数据控制的东西。”
随着GenAI技术的进步,LLM可能会变得更小,更专注于垂直方向。他说,Couchbase正在增加的GenAI新功能有助于公司及其客户做好准备,以便在技术改进发生时能够利用这些技术改进。
他说:“我有一个假设,(人工智能模型)将在垂直行业中变得更加具体……(并)达到一个可以在数据库或数据平台所在的相同环境中运行的规模。”“因此,从网络的角度来看,可能在同一个VPC内……这将减少延迟。”
新的GenAI功能现在通常可以在Couchbase的数据库即服务(DBaaS)产品Couchbase Capella和Couchbase Server中使用,后者可以在客户需要的任何地方运行。该公司将在下个月的一系列会谈中讨论Couchbase 7.6版本。