[CL]《SSRL:Self-SearchReinforcementLea

爱生活爱珂珂 2025-08-16 06:33:38

[CL]《SSRL: Self-Search Reinforcement Learning》Y Fan, K Zhang, H Zhou, Y Zuo... [Tsinghua University & Shanghai AI Laboratory] (2025)

SSRL（Self-Search Reinforcement Learning）揭示了大型语言模型（LLM）作为内置“搜索引擎”的巨大潜力，为搜索驱动的强化学习任务提供了全新范式：

• 自搜索能力强：LLMs通过结构化提示和重复采样，实现对内部知识的高效调用，表现出显著的推理表现提升，特别是在复杂的多跳问答和开放域搜索任务（如BrowseComp）中。

• 性能随推理预算呈规模效应增长：更多采样显著提升pass

• SSRL训练优势明显：引入格式化与规则化奖励，强化模型对内部知识的调用和组织，训练出的策略模型在多基准测试中超越依赖外部搜索的强化学习基线，如Search-R1和ZeroSearch。

• 训练成本与效率优化：相比外部搜索RL，SSRL大幅降低训练成本，实现训练稳定且快速收敛，支持多种强化学习算法（GRPO、PPO等）的兼容适配。

• 强大Sim2Real泛化能力：训练时基于自搜索的策略可无缝衔接真实搜索引擎，支持熵引导的混合搜索策略，有效减少在线搜索调用频次，节约成本同时保持性能。

• 深层洞察：长链推理和多轮搜索并非总带来性能提升，知识的高效利用和结构化输出格式更为关键，强调知识提取与推理的平衡。

• 未来方向：SSRL为构建更自主、可扩展的LLM智能体奠定基础，推动强化学习与生成式搜索的深度融合，减少对昂贵外部资源的依赖。

详情见👉 arxiv.org/abs/2508.10874

强化学习大型语言模型自搜索知识提取Sim2Real人工智能

0 阅读：0

猜你喜欢

中华民族的汉字博大精深

中华民族的汉字博大精深

【2评论】【29点赞】

就在刚刚美国白宫公开宣布了2025年10月19日消息，美国白宫经济顾问哈

就在刚刚美国白宫公开宣布了2025年10月19日消息，美国白宫经济顾问哈

美国白宫 ai

10月20日深夜个股消息梳理：多板块迎利好，这些风险需警惕一、利好消息1.

10月20日深夜个股消息梳理：多板块迎利好，这些风险需警惕一、利好消息1.

【15点赞】

a股

来个人解释下什么原理

来个人解释下什么原理

根据财联社10月19报道，阿里巴巴在人工智能领域竟然再度做出巨大突破，其最新成果

根据财联社10月19报道，阿里巴巴在人工智能领域竟然再度做出巨大突破，其最新成果

【3点赞】

阿里巴巴人工智能芯片英伟达H20

瑞银上调全球股市评级尤其看好中国科技股，全球科技行业调为首选目标，中国的科技最

瑞银上调全球股市评级尤其看好中国科技股，全球科技行业调为首选目标，中国的科技最

科技股科技业瑞银 ai

怎么越来越越多了…

怎么越来越越多了…

【1点赞】

粉丝

长城是不是低调的准备搞个大的？虽然魏总说长城汽车的热效率真的做不到48%，但是在

长城是不是低调的准备搞个大的？虽然魏总说长城汽车的热效率真的做不到48%，但是在

【4评论】

长城汽车发动机国产车

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

Gemini CLI 最新发布了与 VS Code 的原生集成，极大提升了开发者

2

[LG]《Topos Causal Models》S Mahadevan [Ad

3

[LG]《OverFill: Two-Stage Models for Effi

4

[LG]《Scaled-Dot-Product Attention as One

5

[RO]《Rational Inverse Reasoning》B Zandon

6

[LG]《Understanding Transformers through

7

早！[太阳] 早安

8

FastAPI-MCP 今日登上 GitHub 热门，展示了其在 Model C

9

Claude Code 新增 Opus Plan Mode，结合 Opus 4.

10

[人人能懂] AI思考的五种新姿势：它如何学会了“死磕”、“变通”与“偷懒”？

热门分类

科技TOP

1

我预感红米k90可能会卖爆！这外观设计颜值一点不输小米17系列，再加上旗舰级别

2

老美开心了，终于让英伟达倒闭了！刚刚英伟达总裁黄仁勋对外宣布：中方市场份额降

3

华为Mate80会在2025年11月发布，大家最关心的是它用的芯片，麒麟9030

4

10月份即将发布的新手机，看看有没有你喜欢的？

5

华为Mate70Pro在某多多上面百亿补贴的价格才四千多？敢不敢买？看上m

6

屏下摄像头直屏、电池最大8000mAh、骁龙8EliteGen5、最大24G

7

奢牌Caviar搞iPhoneAir定制款！黄金+钛金属+鳄鱼

8

哦豁，REDMIK系列提速了。

9

今年mate80是不是还是走mate70路线，11月发布，前期缺货，过几个月供应

10

我发誓，我的Mate60Pro还没捂热乎呢，Mate80的消息就直接要上王

科技最新文章

1

最新一期手机续航排名出来了，有些手机又被啪啪打脸可以看到荣耀Magic8系列的

2

荣耀最新一轮系统更新，支持适配的手机名单，看看你的手机上榜没有上周荣耀公布了

3

想进华为工作的注意了，余承东发布全球AI人才招募令，合适的朋友可以冲了，毕竟现在

4

奢牌Caviar搞iPhoneAir定制款！黄金+钛金属+鳄鱼

5

iQOO15创历史记录，开售30分钟的销量超上代首日全天，首发价4199元起。•

6

这是iQOO15首销战报1、iQOO15是发布即开售，根据官方的信息iQOO

7

王自如还是去上班了！从格力出来之后，王自如搞了一段时间自媒体，就在大家以为他

8

【iQOO15真机图赏】相信大家在发布前就已经对这块2K三星珠峰屏很熟悉了，这

9

iQOO15价格iQOO15刚刚发布了！这一代的iQOO15售价1

10

目前华为手机段位榜顶级:MateX6、Mate70Rs非凡大师高端：Mat