[LG]《TowardsVerifiedCodeReasoningby

爱生活爱珂珂 2025-10-02 06:59:31

[LG]《Towards Verified Code Reasoning by LLMs》M Sistla, G Balakrishnan, P Rondon, J Cambronero... [University of Texas at Austin & Google DeepMind] (2025)

代码推理的信任难题如何破解？新研究用形式验证为大语言模型（LLM）推理护航，提升软件工程效率与安全。

• LLM擅长代码理解与推理，但易犯三类错误：错误的代码语义假设、未全面考虑问题细节、对库函数行为的无根据假设。

• 提出自动验证框架：将LLM回答转化为形式化谓词（AgentClaims），再用程序分析与形式验证工具验证推理正确性（VerificationCondition）。

• 针对未初始化变量错误，验证步骤成功确认13/20例；针对程序等价查询，准确捕获6/8错误推理，验证LLM输出的可靠性显著提高。

• 形式化谓词设计涵盖数据流、控制依赖、表达式与库函数调用，结合迭代生成缺失谓词，确保语义表达全面且精炼。

• 面对复杂代码，LLM辅助检索相关片段，进行“隐式切片”，降低静态分析保守性与复杂度。

• 验证器具备极高精准度，虽召回率有限，但可通过多次提取与迭代完善大幅提升验证覆盖率。

• 研究揭示：LLM推理虽强，但需要形式验证“后验把关”防止幻觉误导，实现更可信的代码辅助开发。

• 未来方向包括优化谓词设计、改进提示词、引入更强验证器、以及训练LLM生成更易验证的推理过程。

心得：

1. 代码语义的微妙差异常被忽视，形式化表达是避免误判的关键。

2. LLM具备高效语境切片能力，结合形式验证能大幅提升代码审查与等价判断的准确性。

3. 自动验证虽不能完全取代人类，但能显著降低人工复核成本，提升开发效率与软件质量。

了解详情🔗 arxiv.org/abs/2509.26546

大语言模型代码推理形式验证程序等价软件工程

0 阅读：0

猜你喜欢

张旭光先生说：“我一定不会说书法就是写字。”把书法从写字的概念中独立出来，是当代

张旭光先生说：“我一定不会说书法就是写字。”把书法从写字的概念中独立出来，是当代

【3评论】【1点赞】

书法颜真卿

能把汉字写成这样，这也算是独创一体，突破自己，虽然不是很实用，但是也有些花里胡哨

能把汉字写成这样，这也算是独创一体，突破自己，虽然不是很实用，但是也有些花里胡哨

【3评论】【5点赞】

书法

刘洪彪先生这样的创新式写法，在现在一些展览中比较常见，大多是把楷书结构和用笔“打

刘洪彪先生这样的创新式写法，在现在一些展览中比较常见，大多是把楷书结构和用笔“打

恨自己阅读速度太快...

恨自己阅读速度太快...

南派三叔浙江

邓石如的隶书，感觉是把篆书和隶书揉在了一起。隶书的结构都是横向的，而他写的隶书

邓石如的隶书，感觉是把篆书和隶书揉在了一起。隶书的结构都是横向的，而他写的隶书

邓石如

AI应用的催化剂又来了，这也是我十分看好的方向之一。增加光模块，光芯片，PCB

AI应用的催化剂又来了，这也是我十分看好的方向之一。增加光模块，光芯片，PCB

【10点赞】

ai 芯片国家发改委人工智能人工智能 it芯片

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

[CL]《Efficient Code Embeddings from Code

2

[LG]《QR-LoRA: QR-Based Low-Rank Adaptati

3

[CL]《Reasoning-Intensive Regression》D Tc

4

[LG]《CALM: A Framework for Continuous, A

5

[LG]《Adaptive LLM Routing under Budget C

6

早！[太阳] 早安

7

谷歌前沿图像生成模型 Gemini-2.5-Flash-Image（Nano B

8

UQ平台：以未解之问为核心，重塑AI语言模型评测范式📊• 数据集规模：500道

9

[CL]《Demystifying Scientific Problem-Sol

10

[LG]《PSO-Merging: Merging Models Based o

热门分类

科技TOP

1

微信员工回应新iPhone提示空间不足早之前就有网友出现这个问题，要是还解决不了

2

OPPOFindX9的屏幕，由两条顶级产线共炼：第一条，OPPO独家定制行业

3

翻开王腾过去从业史，在好几家手机品牌都干过，在OPPO从2008年一直到2016

4

离职前，OPPO产品经理莫妮卡与客户网友的同框合影照。莫妮卡不仅漂亮清爽，还亲切

5

史上最薄iPhoneiPhoneAir现场真机实拍这外观给几分？

6

重磅！华为公布多颗新昇腾芯片9月18日，在华为全连接大会2025上，华为轮值

7

4499起步倒不算意外，但小米17Pro是4999起步倒是挺意外的。骁龙8

8

这么一比，谁说FindX9不好看的...OPPOFindX9的官方外观

9

iPhone17，终于亮相。今年的颜色都还不错呀，造型就是跟16基本一样。屏

10

一张X300和X200Promini的背面对比图，可以看到X300的大圆镜头比

科技最新文章

1

小米17系列销量破百万所以好的产品真正有创新的产品永远不用愁消费者买不买单！小

2

华为事情突发！任正非的女儿孟晚舟明天起担任华为的轮值董事长，任期到2026年

3

苹果彻底傻眼了吧[捂脸哭]荣耀竟然要直接来个贴脸开大，荣耀500系列这是要把苹果拉

4

非常庆幸今年还有少数像荣耀Magic8Pro这样的窄边微曲屏幕的机型，真好看，

5

不听劝入手了荣耀Magic7，整个人都愣住了！大家听我的选手机千万不要光听人说，

6

不得不说现在的手机更新速度是真的快……我的Magic7到手还没捂热乎，Magic

7

刚看了下10月的新机发布安排，真的是太密集了。10月13日vivoX300

8

荣耀500系列配置前瞻，含荣耀500与荣耀500Pro。屏幕上，前者6.5英寸

9

荣耀Magic8Pro的真机外观图也释放出来了，感觉整体跟Magic7Pro

10

又一次定价失误的话，友商可不给你任何机会。华为M80要是再飘可就不好说了，产