最新型犯罪“数据投毒”!假信息会毁掉医疗AI大模型吗

mgclouds蘑菇晕 2025-01-18 09:46:00

近日,国际顶尖医学杂志《Nature Medicine》发表研究成果,揭示了医疗行业积极采用AI提高诊断效率,但医疗AI大模型容易受到假信息的误导,产生危害民众健康或误导专业人士的医疗建议,这种假信息堪称“数据投毒”。专家分析,这种危害人类健康的“数据投毒”,可以视为最新型的犯罪。假信息会毁掉Ai医疗大模型吗?蘑菇云对有关情况进行了梳理分析。

《Nature Medicine》连发9篇关于医疗AI大模型的论文一、事件的系统梳理

(一)“数据投毒”的起因近年来,医疗行业积极采用 GPT-4、LLaMA 等大语言模型,旨在提高诊断效率、改善患者护理并加快新药研发,人们对AI医疗的热情也空前高涨,“十年内所有疾病都将被治愈”、“AI医生水平超过人类医生”等耸人听闻的报道频频登上热搜。(二)“数据投毒”的暴露Citizen.org研究总监Rick Claypool发表的一篇论文显示,在北美一款流行的蘑菇识别AI工具在识别毒蘑菇时常出现误判,将致命的毒蘑菇如毒蝇伞、死亡帽误判为可食用品种,导致数十人因食用有毒真菌入院治疗。《Nature Medicine》对这类问题进行研究后发现,医疗 AI 大模型存在严重的 “数据投毒” 风险,即使训练数据中仅含有极少量的错误信息,如 0.001%,也可能导致模型生成不准确的医学答案和有害的医疗建议,对患者安全构成重大隐患。

致命的毒蘑菇--毒蝇伞(三)“数据投毒”的危害这种假数据攻击,可能使 AI 生成误导性甚至有害的医疗建议,如错误的诊断结果、不恰当的治疗方案、虚假的药物副作用信息等,直接威胁患者的生命安全和健康,同时也破坏了医疗 AI 的可靠性和信任度,可能引发医疗纠纷和法律问题,甚至可能影响公共卫生决策和措施的实施。二、揭秘“数据投毒”这种新型犯罪方式的技术原理

之所以称“数据投毒”是一种新型犯罪,因为这种方式是可以被不法分子复制的。它的技术原理主要有3个方面。第一个方面,注入虚假数据攻击者通过向训练数据中灌注虚假或不准确的数据,干扰模型的训练。例如,利用 OpenAI 的 GPT-3.5 API 生成大量虚假医疗文章,并将其注入常见的网络爬取数据中,如 Common Crawl 和 OpenWebText15。第二个方面,利用隐蔽手段投毒内容可以隐藏在 HTML 代码中、放置在网页中不会被正常浏览到的区域,甚至可以通过隐藏文本如黑色背景上的黑色文字来实现,从而躲避常规的数据质量审查,使这些虚假信息能够顺利进入训练数据集。第三个方面,利用数据偏差和标签错误攻击者可能故意引入数据偏差,以使模型偏向某些特定类别或结果;或者更改或错误地标记训练数据的标签,让模型学习不正确的关系。三、防止“数据投毒”毁掉医疗AI大模型的应对措施

(一)数据管理方面加强数据源控制,提升训练数据的透明度和来源可追溯性,对数据进行严格的审核和筛选,避免低质量或未经验证的信息进入训练集。例如,只使用经过人工审核的高质量医学数据库,如 PubMed 等。构建专用知识库,建立高质量的医学知识库,为模型生成内容提供可信赖的参考基础。同时,不断更新和完善知识库,确保其中的医学知识准确、及时。(二)技术防护方面多层防护机制,结合知识图谱、提示词优化和检索增强生成等多种技术手段,提升模型的鲁棒性。例如,研究团队开发的基于生物医学知识图谱的验证算法,可以捕获 91.9% 的有害内容。

医疗大模型的数据投毒攻击与检测持续监测与更新,建立对模型的持续监测机制,及时发现和处理可能出现的错误信息和安全漏洞。同时,根据医学领域的新知识和新进展,对模型进行及时更新和优化,提高其准确性和可靠性。(三)人员合作与监管方面跨学科协作,研发医疗大模型需要 AI 专家与医学从业者的深度合作,共同确保模型的安全性和可靠性。医学从业者可以提供专业的医学知识和临床经验,帮助 AI 专家更好地理解和处理医疗数据。强化安全评估和监管,在医疗 AI 模型的开发和应用过程中,进行严格的安全评估和监管,确保模型符合安全标准和法规要求。例如,建立专门的监管机构,对医疗 AI 产品进行审批和监督,要求开发者提供详细的安全测试报告和风险评估。

0 阅读:0
mgclouds蘑菇晕

mgclouds蘑菇晕

欢迎大家关注我给我点赞