[LG]《SYNAPSE-G:BridgingLargeLanguage

爱生活爱珂珂 2025-08-15 06:33:31

[LG]《SYNAPSE-G: Bridging Large Language Models and Graph Learning for Rare Event Classification》S Tavakkol, L Chen, M Springer, A Schantz... [Google Research] (2025)

SYNAPSE-G 融合大语言模型与图学习,创新解决稀有事件分类中的“冷启动”难题:

• 利用大语言模型(LLM)生成高质量、多样化的合成稀有事件样本,作为标签种子,突破无标注数据瓶颈。

• 构建相似度图,将合成种子与大规模未标注数据连接,采用半监督标签传播(Label Propagation)或迭代二分图(IBG)方法扩展正样本,显著提升召回率与精准度。

• 理论证明合成数据的有效性(validity)与多样性(diversity)对标签传播的精度和召回具有关键影响,揭示精度与多样性间的非直觉权衡关系。

• 在极度不平衡的SST2和MHS数据集上,SYNAPSE-G优于传统最近邻和基线模型,尤其在有限查询预算下表现出更高的稀有事件发现率。

• 工业级应用案例中,SYNAPSE-G成功解决多政策滥用内容检测的标注稀缺问题,实现多策略统一评估,且标签传播方法支持大规模图的高效迭代更新。

• 结合Gecko等先进文本嵌入技术,利用图结构引导正样本挖掘,避免了纯基于分类器的算力和标注成本高昂的迭代过程。

SYNAPSE-G提供了一个实用且可推广的框架,助力应对社交媒体及互联网中动态涌现的稀有风险事件,推动稀有事件检测迈向更高效、更精准、更规模化的新时代。

详情见👉 arxiv.org/abs/2508.09544

人工智能大语言模型图学习稀有事件检测半监督学习机器学习自然语言处理

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注