斯坦福大学研究：教育水平较低地区的AI写作工具使用率更高

IT之家3月4日消息，自2022年底ChatGPT推出以来，关于人工智能语言模型将如何广泛影响世界的讨论一直存在。如今，随着一项由斯坦福大学牵头的新研究的发布，这一图景逐渐清晰。研究发现，AI语言模型目前已在多个行业中协助处理高达四分之一的专业沟通任务，尤其是在美国教育水平较低的地区，其影响尤为显著。

研究人员在报告中指出：“我们的研究揭示了一个新的现实，即企业、消费者乃至国际组织在沟通中已大量依赖生成式AI。”该研究追踪了从2022年1月到2024年9月期间，不同行业中大型语言模型（LLM）的采用情况。研究数据集涵盖了美国消费者金融保护局（CFPB）收到的687,241份消费者投诉、537,413份企业新闻稿、3.043亿份工作招聘启事以及15,919份联合国新闻稿。

通过使用统计检测系统追踪词汇使用模式，研究人员发现，在此期间，约18%的金融消费者投诉（其中阿肯色州的所有投诉中有30%）显示出AI协助的迹象；企业新闻稿中有24%、工作招聘启事中有15%以及联合国新闻稿中有14%的内容也显示出AI的参与。

研究还发现，尽管城市地区的AI采用率总体较高（18.2%），但教育水平较低的地区使用AI写作工具的频率更高（19.9%），高于教育水平较高的地区（17.4%）。这一现象与通常的技术采用模式相悖，通常情况下，受教育程度较高的人群会更快地采用新技术。

“在消费者投诉领域，LLM采用的地理和人口统计模式呈现出与历史技术扩散趋势截然不同的特点。以往，技术采用通常集中在城市地区、高收入群体和受教育程度较高的人群中。”研究人员指出。

研究人员指出，AI写作工具可能为那些教育经验较少的人群提供了一种“助力”。他们写道：“尽管城乡数字鸿沟似乎仍然存在，但我们发现教育水平较低的地区在消费者投诉中显示出略高的LLM采用率，这表明这些工具可能成为消费者维权中的‘平等化工具’。”

此前，AI写作检测服务的可靠性一直备受质疑，而这项研究也证实了这一观点。在单个文档层面，AI检测器并不可靠，但在分析数百万份文档的整体数据时，一些特征性模式开始浮现，这些模式暗示了AI语言模型对文本的影响。

研究人员基于之前发布的统计框架开发了一种方法，分析ChatGPT发布前后词汇频率和语言模式的变化。通过比较ChatGPT发布前后的大量文本，研究人员估算出人口层面上AI辅助内容的比例。其假设是，大型语言模型倾向于选择某些特定的词汇、句式结构和语言模式，这些模式与典型的人类写作存在细微差异。

为了验证这种方法的可靠性，研究人员创建了已知AI内容比例（从0%到25%）的测试集，并发现其方法预测这些比例的误差率低于3.3%。这种统计验证使他们对自己的人口层面估算充满信心。

IT之家注意到，尽管研究人员特别指出，他们的估算可能仅代表AI使用的最低水平，但实际的AI参与程度可能要高得多。由于难以检测经过大量编辑或由越来越复杂的AI生成的内容，研究人员表示，他们报告的采用率可能大幅低估了生成式AI的真实使用水平。

根据研究人员的说法，他们分析的所有领域（消费者投诉、企业沟通、工作招聘启事）都显示出类似的采用模式：在ChatGPT于2022年11月推出后的三到四个月开始，采用率急剧上升，随后在2023年底趋于稳定。

研究人员承认，由于研究主要关注英语内容，分析存在一定局限性。此外，如前所述，他们发现无法可靠地检测经过人工编辑的AI生成文本或由更新模型生成的模仿人类写作风格的文本。因此，研究人员认为他们的研究结果仅代表实际AI写作工具采用率的下限。

研究人员指出，2024年AI写作采用率的停滞可能反映了市场饱和或越来越复杂的LLM生成的文本能够逃避检测方法。他们总结道，如今我们生活在一个人类写作与AI写作越来越难以区分的世界，这对社会沟通产生了深远影响。

“对AI生成内容的日益依赖可能会给沟通带来挑战。”研究人员写道，“在敏感领域，过度依赖AI可能导致信息无法解决实际问题，或在对外发布时降低信息的可信度。过度依赖AI还可能引发公众对企业信息真实性的不信任。”