基于案例推理(CBR)的智能体DS-Agent,让GPT-4数据科学任务接近100%

智尊AI大模型 2024-10-09 00:12:20

在当今数据洪流的时代,数据科学作为从海量数据中提炼价值的艺术与科学,其全生命周期——从数据搜集、精细化处理、模型构建到预测分析——均面临着前所未有的挑战与机遇。鉴于数据科学的复杂性与对专家知识的深度渴求,自动化技术的融入正逐步重塑这一领域的面貌,而生成式预训练语言模型的崛起,更是为大数据智能处理开启了新篇章。

传统上,数据处理与分析往往依赖资深数据科学家的辛勤耕耘,这一过程不仅耗时耗力,还限制了数据价值挖掘的效率与广度。设想若能让大语言模型智能体担纲“数字科学家”的角色,不仅能够显著提升洞察分析的效率,更有望解锁全新的工业应用与研究模式,引领一场数据科学界的革命。

这一愿景下,智能体将化身数据探索的先锋,仅需用户定义任务需求,便能自主穿梭于浩瀚的数据海洋中,精准捕捉潜藏的模式与趋势。更进一步,它们能够规划出清晰的模型构建蓝图,自动化生成代码,驱动机器学习模型的部署与推理,最终通过数据可视化技术,将复杂的数据关系转化为直观易懂的信息图谱,让数据智慧触手可及。

近期,由吉林大学、上海交通大学携手伦敦大学学院汪军团队共同研发的DS-Agent,正是这一理念的具体实践。DS-Agent被精心设计为一名虚拟数据科学家,专注于自动化处理复杂的机器学习建模任务。在技术架构上,团队创新性地引入了基于案例的推理(CBR)机制,赋予DS-Agent以史为鉴的能力,使其能够借鉴过往成功案例的经验,灵活应对新问题的挑战,从而在数据科学的自动化征途上迈出坚实步伐。

基于案例推理(CBR)的智能体DS-Agent

论文链接:https://arxiv.org/pdf/2402.17453.pdf

代码链接:https://github.com/guosyjlu/DS-Agent

论文题目:DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning

研究背景

在探索自动化数据科学的广阔领域时,当前顶尖的大模型智能体(诸如AutoGPT、LangChain、ResearchAgent等),即便辅以GPT-4的强大能力,仍难以在开放决策环境中确保高成功率。其核心难题在于,这些智能体在稳定生成可靠机器学习方案上力不从心,且常受“幻觉输出”问题困扰。为解决这一困境,针对数据科学领域的特定微调虽被视为潜在途径,却伴随两大挑战:一是构建有效反馈信号需基于耗时的机器学习模型训练,以累积足够的微调数据;二是微调过程涉及复杂的反向传播算法,不仅加重计算负担,还显著提升了资源需求门槛。

鉴于此,团队巧妙地将目光投向了Kaggle——这一全球领先的数据科学竞赛舞台,它汇聚了无数资深数据科学家的智慧结晶与技术成果。为了高效整合这一宝贵资源,团队引入了基于案例的推理(Case-Based Reasoning, CBR)这一经典AI问题解决策略。

CBR的核心在于构建一个动态更新的案例库,持续储存过往的解决经验与成果。当面临新挑战时,CBR机制会迅速在案例库中搜寻相似案例,尝试复制其成功之道以应对新问题。随后,通过评估解决方案的实际效果,并依据反馈进行必要调整,确保解决方案的持续优化。而经验证有效的方案,则会被纳入案例库,为未来问题的解决提供有力支撑。

基于上述理念,团队创新性地推出了DS-Agent,它巧妙地融合了CBR机制与大模型智能体的能力,使得DS-Agent能够深入分析Kaggle平台上的人类专家见解,精准提取并复用这些宝贵知识。通过在实际任务中执行并收集反馈,DS-Agent能够不断迭代优化其解决方案,从而在数据科学任务中实现持续的性能飞跃。此策略不仅降低了对大规模微调数据的依赖,还通过智能复用与迭代优化,显著提升了自动化数据科学解决方案的可靠性与效率。

基于案例推理(CBR)的智能体DS-Agent

框架细节

总体上,DS-Agent 实现了两种模式,以适应不同的应用阶段和资源要求。

标准模式(开发阶段):DS-Agent巧妙地运用基于案例的推理(CBR)机制,构建起一个高度模拟人类数据科学家工作流的自动化迭代框架。这一框架鼓励持续的试错与优化,如同科学家们在探索与调整机器学习模型时的不懈追求,力求在每一轮迭代中逼近最佳性能。通过深入分析Kaggle等平台上丰富的人类专家知识库,DS-Agent能够迅速构建起初步解决方案的雏形。随后,它步入一个高效循环,自动化执行编程、模型训练、性能评估与调整等关键步骤,不断依据测试集上的反馈优化模型设计,直至找到最符合预期的模型配置。这些成功案例随后被精心储存于案例库中,为后续相似任务的快速解决奠定了坚实基础。

低资源模式(部署阶段):当项目进入部署阶段,DS-Agent展现出其高效低耗的显著优势。它不再依赖耗时的从头探索,而是直接转向案例库,从中检索并复用经过严格验证的成功案例来直接生成高效代码。这一策略极大地降低了对计算资源的依赖,使得DS-Agent能够在有限的资源条件下,依然能够迅速响应市场需求,提供高质量的机器学习解决方案。同时,这一模式也有效减轻了对底层大模型推理能力的负担,让更广泛的用户群体能够以更低的成本享受到AI技术带来的便利。

基于案例推理(CBR)的智能体DS-Agent

实验设置

我们收集了 30 种不同的数据科学任务,覆盖了三种主要数据模态(文本、表格和时间序列)以及两大机器学习核心问题(分类和回归),并设计了不同的评价指标来保证任务的多样性。

基于案例推理(CBR)的智能体DS-Agent

开发阶段实验结果

在开发阶段中,DS-Agent 使用 GPT-4 首次在数据科学任务中实现了 100% 的成功率;相比之下,DS-Agent 即使使用 GPT-3.5 也展现出了比最强基线 ResearchAgent 使用 GPT-4 时还要更高的成功率。

基于案例推理(CBR)的智能体DS-Agent

此外,DS-Agent 使用 GPT-4 和 GPT-3.5 时,分别在测试集评价指标中取得了第一和第二的成绩,显著优于最强基线 ResearchAgent。

基于案例推理(CBR)的智能体DS-Agent

部署阶段实验结果

部署阶段中,DS-Agent 使用 GPT-4 时,取得了首次接近 100% 的一次成功率,同时将开源模型 Mixtral-8x7b-Instruct 的一次成功率从 6.11% 跃升到了 31.11%。

基于案例推理(CBR)的智能体DS-Agent

在测试集指标评估中,DS-Agent 使用 GPT-4 和 GPT-3 时,取得了第一和第二的成绩;然而遗憾的是,开源大模型 Mixtral-8x7b-Instruct 在 DS-Agent 的加持下仍然没有超越 GPT-3.5。

基于案例推理(CBR)的智能体DS-Agent

最后

我们对 DS-Agent 在两种不同模式下的 API 调用成本进行了分析。通过对比,我们发现在开发阶段,DS-Agent 分别对 GPT-4 和 GPT-3.5 进行调用时,单次成本分别是 1.60 美元和 0.06 美元。然而,在部署阶段,成本得到了显著降低:DS-Agent 单次使用 GPT-4 的成本下降至仅需 13 美分,而单次使用 GPT-3.5 的成本更是低至不足 1 美分。这意味着在部署阶段,与开发阶段相比,我们实现了超过 90% 的成本节省。

基于案例推理(CBR)的智能体DS-Agent

在DS-Agent的赋能下,即便缺乏编程技能或机器学习知识,复杂的数据分析难题也能迎刃而解,为企业带来前所未有的业务洞察深度。这一创新工具不仅简化了数据分析流程,更使决策过程变得高效而精准,助力企业策略优化与未来趋势的精准预测,数据部门的工作效能因此有望实现质的飞跃。

设想一下,营销团队仅凭几句自然语言的需求描述,DS-Agent便能迅速勾勒出详尽的用户画像,并自动生成精准的营销策略分析报告;金融领域的分析师则能摆脱手动建模的束缚,转而与智能体并肩探讨市场动态,共同把握市场脉搏。这些曾经看似遥不可及的愿景,正随着DS-Agent的问世而逐渐变为现实。

诚然,自动化数据科学尚处于萌芽阶段,全面普及与规模化应用仍需时日。然而,DS-Agent的出现无疑为这一领域注入了强大的动力与希望。它预示着一个时代的到来,在这个时代里,繁重的数据分析工作将逐渐由AI接管,而人类则将获得更多宝贵的时间与空间,专注于更深层次的洞察思考与创新决策。

本文转载自智尊AI大模型

0 阅读:0
智尊AI大模型

智尊AI大模型

智尊AI大模型社区,懂AI,用AI,造AI,一站式AI学习平台。