大模型能力边界争议,能力是否被夸大了

薪科技快评 2024-03-13 11:59:06

大模型的能力被夸大了

大模型被视为提升团队效率的核心技术,麦肯锡权威预测:LLM与生成式AI技术每年有望驱动全球企业利润增长高达4.4万亿美元。尼尔森研究揭示,应用此类工具可劲升员工生产力66%。鉴于此,众多企业正将发掘并高效运用这些工具视为提升生产力的首要策略。然而,在对新技术满怀期待之际,我们仍建议企业在推广过程中持审慎态度,避免全面铺开至全公司范围。

在这股狂热中,我们有理由对某些预测持怀疑态度:这些工具是否真能引发企业生产力的颠覆性变革。原因之一在于,评估生产力时,焦点常落于单一任务维度,如文档整理、演示制作或客户电话接听等,并关注个人如何借助LLM提升效率。然而,将此类微观成效放大至企业层面,其成本投入不容小觑。

在呼叫中心场景中,研究团队采用搭载LLM界面的机器学习平台,专注于对话及其成果的专项训练。通过监测平均对话完成时长这一生产力指标,新研发的AI工具成功将效率提升14%,显著优化了服务体验。

然而,深入分析揭示出隐忧:参考权威呼叫中心研究显示,优秀员工在采用该系统后,业绩不升反降,这无疑对创新、激励机制及核心人才留存带来潜在挑战。

研究表明,生成式AI在充分涵盖的任务中显著提升生产力,但当面临LLM数据不足或推理能力受限的任务时,生产力反而下滑。长期来看,文化价值观与最佳实践的演变可能导致这些优势减退,甚至可能引发生产力明显衰退。

值得注意的是,新技术引入可能导致关键专家人才流失,他们的专业积淀正是构建这些系统的核心,这一潜在风险尚未充分探讨。仅依据单一任务数据来评估LLM等技术对整体企业效能的影响,缺乏全面性和长远视角,实为不周全之举。

因此,我们提议企业在部署LLM时采取精细且数据导向的策略,避免盲目全面应用。领导者需明确识别这项技术能产生显著效益的领域。为此,深入理解两个关乎企业中长期发展的LLM核心议题至关重要:1)其持续生成误导性内容的可能性;2)长期运用LLM可能对企业员工及内部流程产生的潜在负面影响。

尽管 LLM 在语法流畅性上取得显著提升,但自动检索事实的能力仍有待突破,这是计算机科学长期面临的瓶颈,进展步伐缓慢。

其次,LLM 在特定任务优化上虽展现潜力,但可能扭曲员工激励机制,并潜藏复杂工作流程中的系统性风险。当这些问题交织,可能导致组织内难以察觉的系统性故障。若不对生成式 AI 应用场景严加限定并持续监管,或将严重影响组织运行效率,乃至效能衰减。

#01合理虚构

LLM与机器学习,凭借挖掘海量历史数据模式,洞见未来趋势,然其预测并非绝对精准。本文不赘述其运作机理,但简言之,此类庞大数据模型通过吸纳几乎覆盖互联网全量文本,构建强大的词语预测模型。初步训练后,企业普遍聘请专业标注团队,对模型反馈修正,以有效降低生成负面内容的风险。

理解关键:这些模型不具备事实或真相的判断力,它们仅基于互联网训练的海量文本统计概率生成答案。真实信息在训练数据中出现频率越高,LLM提供准确回复的可能性越大。浏览最新新闻不难发现,这些模型也会误信谬论并自信输出的例子。

例如,Ben钟爱的挑战是向模型提问:哪些非洲国家名以“K”字打头?而Nate则对谷歌Bard电邮工具的独特表现印象深刻——它会创作虚构的、未实际发送过的邮件,这一行为精准揭示了LLM的工作机制,尽管在实用性上并不总是奏效。

挑战仍在,数十年来机器学习研究者尝试将问题对接至事实数据库,尽管LLM以更流畅的界面革新了体验,但核心难题——基于自然语言输入精准检索事实,仍未攻克。LLM的重大突破在于构建庞大模型并运用海量数据习得语法统计特性,但这与解决事实检索问题并不直接相关。

普遍误解认为LLM能确保只输出事实性内容,然而实际并非如此。要求“仅提供有来源的回复”并不能改变模型本质,它只会模拟出仿佛引用了权威来源的回答。尤其在处理数据中频繁出现的文本时,此方法可能奏效;但在某些情况下,结果并不尽如人意。对此技术的一种诙谐解读是“男士式专家说教服务”,其答案或对或错,但总显得极具说服力。

#02被过去束缚

在组织环境中,语言的适时适地运用至关重要。以呼叫中心为例,若公司新品发布,缺乏相关对话记录用于训练模型,意味着即使过往准确,未来预测也可能失误。

有人认为“我们需要重新训练”,然而此举也带来诸多挑战。首要难题是,企业是否具备精准识别性能波动的能力,比如在新产品发布、营销策略调整或程序员采用不同API更新代码补全LLM时。为此,企业需构建并执行全面监控流程以应对潜在冲突,这无疑将产生高昂成本。

任务完成速度的提升易量化,但准确性下滑却难以察觉。当员工将报告完成时间从十分钟压缩至五分钟,若精度降低,我们如何及时发现并评估这种不准确性的显现所需时长?

再者,卓越员工参与工具再训练的内在动力已发生转变。研究揭示,盲目效仿优秀员工行为非但无助于提升,反而会阻碍其表现。一旦他们的薪酬削减而他人上涨,他们进行先前那种驱动创新发现的行为概率将大幅下滑,甚至可能离职,从而整体降低公司效能。

#03模型崩溃

当系统开始自我训练,依赖其运作的组织或将遭遇“模型崩溃”危机。尽管初始训练基于人类编写的文本,但LLM在自身输出基础上的迭代训练将导致质量迅速滑坡。鉴于这些系统需持续接受人工再训练以适应真实场景,并且其训练数据包含先前LLM生成的部分内容,这意味着几轮训练后,系统可能输出低质甚至负面价值的结果。

挑战之一在于,尽管 LLM 的核心优势在于高效处理海量文本,但现有训练素材却日益匮乏。更严峻的是,LLM 输出可能反过来污染新文本资源,进一步阻碍模型质量提升。目前有迹象显示,在当前架构下,模型性能或已触及天花板。

#04LLM 影响的长期视角

从长远角度洞悉非事实性输出问题,以“ChatGPT律师案”为例:律师运用ChatGPT起草法律文件,其中的细节错误不期而至,导致法院与涉事律师面临大量额外工作负担。

从任务完成角度看,ChatGPT 在此场景中成效显著:律师借助 ChatGPT 能在几分钟内高效撰写法律文书,相较于以往耗时数日,效率显著提升。然而,从系统宏观审视,却暴露了隐患。ChatGPT 输出内容极具权威性且巧妙运用“我”字增强信任感,易使人放松核查,这一现象在司法领域中可能导致工作效率整体下滑。

这是一个很容易将 ChatGPT 视为罪魁祸首的案例。但想象一下,如果公司使用 LLM 编写员工手册,员工可能只会仔细阅读前几页看似权威和连贯的文本,之后就可能粗略地浏览。如果手册中出现了错误,可能几年都不会被发现。假设自动生成的员工手册遗漏了有关性骚扰处罚的重要细节,如果日后工作场所发生性骚扰事件,公司发现自己无法解雇肇事者,那么将这一点归咎于使用 LLM 编写手册将非常困难。这种风险在任务层面或短期内是无法准确量化的,需要整体的、组织性的、长期的评估。

#05带有偏见

多项研究揭示,重视并抑制LLM在强化和放大偏见的影响是至关重要的。道德层面明确其谬误性,各组织运用此类系统时务必审慎行事;同时,关注其带来的经济效应亦颇具启示价值。

资产管理者已广泛认可多元化与包容性劳动力的价值,甚至将其作为投资和薪酬决策的重要依据。然而,技术如LLM可能在无意中削弱这一优势:对边缘化社区使用的语言处理不善或总结不足,令其成员感到忽视与排斥。尤其对于那些母语在线文本稀缺、不足以充分训练LLM的群体,模型将因数据不足而难以提供精准翻译,从而加剧他们的边缘化问题。

生成式AI可能导致强化社会偏见,广泛应用的企业或将面临边缘化员工疏离的挑战。高离职率不仅带来高昂成本,更限制了创新潜力的挖掘,这一现状亟待关注与改善。

#06高风险的业务

综合研究揭示,LLM在众多职场应用中潜藏风险。对于事实精准度决定生死的项目与工作流程,任何声称该技术能提升生产力的观点,都必须肩负起全面、长期验证其可靠性的重任,涵盖环境成本(如模型训练与使用的能耗)、网络安全等更多潜在问题。仅仅着眼短期任务效果,显然远远不够。

在处理证据总结与整合时,LLM的可靠性难以保障。实际运用中,它可能非但无法提升政策制定、流程执行、纠纷解决及报告生成等方面的效率,反而可能导致整体表现下滑。更早期研究揭示,当人际沟通内容由AI工具生成,团队成员对交流的信任度显著降低,这对开展深度讨论、高效头脑风暴及执行关键任务带来深远影响。

值得注意的是,此类技术还潜藏其他重大伦理隐患,如加剧社会偏见、固化刻板印象及可能引发版权侵犯等。由于模型特性易记忆独特数据点,这些隐患对 LLM 的合法性构成了切实挑战,增加了额外风险。因此,应在更全面的探讨中深入审查这些问题。

#07未来何去何从?

在本文,我们对LLM的过度炒作持审慎态度,认为应采取严谨策略。尽管短期内,对其的大肆宣传可能助力软件或书籍销售,但盲目在整个企业部署此类模型,或将引发隐形且持久的生产力损耗。因其难以量化衡量,一旦深度融入不适配的工作流程,可能导致持续的绩效滑坡。

LLM技术并非全然无用,关键在于明确其适用场景。例如,在非母语写作中,用户和开发者可充分利用LLM,优化文本表达,使之更自然、易懂,从而有效拉近母语者与非母语者之间的沟通鸿沟。

AI在快速生成大量创意性见解领域展现巨大潜力,想象一款科技产品应运而生,助力企业轻松开展小规模、精准实验。领导者应审慎探索LLM应用场景,避免盲从或抵触,挖掘其潜在价值。

最终,非所有新兴工作技术皆能显著提升企业级生产力。尽管 AI 炒作可能驱使公司以低成本劳动力替换高成本人才,短期利润增长背后,实则牺牲了生产力。然而,审慎驾驭、严谨测试并有效利用生成式 AI,我们完全有望规避这一误区,实现持续高效发展。

"GenAis对生产力的影响是否被夸大了?哈佛商业评论2024年1月刊深度解析,揭示真相。探讨AI技术在提升效率的同时,是否存在潜在的误导性认知。"

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

0 阅读:21

薪科技快评

简介:薪科技评说,发现技术的点滴,记录科学的飞跃!