科罗拉多大学博尔德分校计算机科学家 Theodora Chaspari 领导的一项新研究表明,一些用于医疗保健的人工智能工具可能会因不同性别和种族的人的说话方式而感到困惑。
这项研究基于人类社会中一个或许不言而喻的现实:每个人说话的方式都不一样。例如,女性说话的音调往往比男性高,而白人和黑人说话者之间也会出现类似的差异。
现在,研究人员发现,这些自然变化可能会使筛查人类焦虑或抑郁等心理健康问题的算法产生误差。这一结果进一步表明,人工智能就像人类一样,可以根据种族或性别做出假设。
计算机科学系副教授查斯帕里说:“如果人工智能训练不充分,或者没有包含足够的代表性数据,它就会传播这些人类或社会偏见。”
她和她的同事于7 月 24 日 在《数字健康前沿》杂志上发表了他们的研究成果。
Chaspari 指出,人工智能可能成为医疗保健领域的一项有前途的技术。经过精细调整的算法可以筛选人们说话的录音,寻找他们说话方式的细微变化,这些变化可能预示着潜在的心理健康问题。
但计算机科学家表示,这些工具必须对来自不同人口群体的患者表现一致。为了确定人工智能是否能胜任这项任务,研究人员将真人音频样本输入一组常见的机器学习算法中。结果引发了一些危险信号:例如,人工智能工具似乎对比男性更容易患抑郁症的女性诊断不足——在现实世界中,这种结果可能会阻止人们获得所需的护理。
“借助人工智能,我们可以识别人类无法察觉的这些精细模式。”查斯帕里说道,他是德克萨斯农工大学的一名教员,负责这项研究。“然而,虽然有这样的机会,但也存在很多风险。”
她补充说,人类的说话方式可以成为了解其潜在情感和幸福感的强大窗口——诗人和剧作家早就知道这一点。
研究表明,临床诊断为抑郁症的人说话时往往比其他人更轻柔,语调也更单调。而患有焦虑症的人说话时音调更高,而且“颤抖”程度更大,这是衡量说话时气息的指标。
“我们知道,言语在很大程度上受人体结构的影响。”查斯帕里说,“对于抑郁症,一些研究表明,声带振动方式会发生变化,甚至声道对声音的调节方式也会发生变化。”
多年来,科学家已经开发出人工智能工具来寻找这类变化。
Chaspari 和她的同事决定仔细研究这些算法。为此,该团队利用了人类在各种场景中的谈话录音:在一种情况下,人们必须对一群陌生人进行 10 到 15 分钟的谈话。在另一种情况下,男性和女性在类似于医生就诊的环境中交谈更长时间。在这两种情况下,说话者分别填写了有关他们心理健康的问卷。这项研究包括德克萨斯农工大学本科生 Michael Yang 和 Abd-Allah El-Attar。
消除偏见结果似乎完全不同。
例如,在公开演讲录音中,拉丁裔参与者报告称,他们平均比白人或黑人演讲者感到更加紧张。然而,人工智能未能检测到这种高度焦虑。在第二个实验中,算法还标记出相同数量的男性和女性有患抑郁症的风险。事实上,女性演讲者出现抑郁症状的比例要高得多。
Chaspari 指出,该团队的成果只是第一步。研究人员需要分析来自广泛人口群体的更多人的录音,然后才能理解为什么人工智能在某些情况下会出错——以及如何纠正这些偏见。
但她表示,这项研究表明,人工智能开发人员在将人工智能工具引入医学领域之前应该谨慎行事:“如果我们认为某种算法实际上低估了特定群体的抑郁症程度,我们就需要告知临床医生。”