随着Grok的新AI图像生成器,X用户对马斯克的“言论自由”进行了考验。
周二,埃隆·马斯克的AI公司xAI宣布推出两款新语言模型的测试版,分别是Grok-2和Grok-2 mini,供他社交媒体平台X(前身为Twitter)的订阅用户使用。这些模型还与最近发布的Flux图像合成模型相关联,允许X用户创建大幅不受审查的照片级图像,并在该网站上共享。
“通过Grok访问的Flux是一个出色的文本到图像生成器,但它也非常擅长创建真实地点和人物的假照片,并将其直接发送到Twitter,”常年评论AI的Ethan Mollick在X上写道。“有人知道他们是否以某种方式对这些进行水印处理吗?这将是个好主意。”
在今天早些时候发布的一份报告中,《The Verge》指出,Grok的图像生成能力似乎几乎没有安全措施,允许用户创建潜在有争议的内容。根据他们的测试,当提示时,Grok生成了描绘政治人物处于妥协状态、侵犯版权角色和暴力场景的图像。《The Verge》发现,虽然Grok声称有某些限制,比如避免色情或过于暴力的内容,但这些规则在实践中似乎不一致。与其他主要AI图像生成器不同,Grok似乎并不拒绝涉及真实人物的提示,也没有对输出添加识别水印。
鉴于人们迄今为止生成的内容,包括唐纳德·特朗普和卡马拉·哈里斯在显然是911攻击途中亲吻或竖起大拇指的图像,这种不受限制的输出可能不会持续太久。但另一方面,埃隆·马斯克在其平台上大肆宣扬“言论自由”,因此这种能力可能会保留(直到有人可能提起诽谤或版权诉讼)。
使用Grok图像生成器追求震撼效果的人引发了一个古老的AI问题:AI图像生成器的误用应由创建提示的人、创建AI模型的组织还是托管图像的平台负责?到目前为止,尚无明确共识,且这一情况尚未在法律上得到解决,尽管一项名为NO FAKES法案的新提案可能会追究X对生成逼真图像深度伪造的责任。
周四上午,马斯克对此发表了看法,回应了Mollick关于xAI为何选择使用Flux以允许用户生成没有额外内容过滤的图像的公开问题,马斯克写道:“我们正在开发自己的图像生成系统,但还需几个月,因此这似乎是一个人们可以玩得开心的好过渡步骤。”
展望图像之外,在一篇发布博客中,xAI声称Grok-2和Grok-2 mini在能力上有显著进展,Grok-2据称在最近的基准测试中超越了一些领先竞争对手,成为我们所称的“vibemarks”。对这些声明持怀疑态度是明智的,但看起来“GPT-4类”的AI语言模型(这些模型能力与OpenAI的模型相似)已经增多,但GPT-4的壁垒尚未被打破。
“现在有五个GPT-4类模型:GPT-4o、Claude 3.5、Gemini 1.5、Llama 3.1,以及现在的Grok 2,”Ethan Mollick在X上写道。“所有实验室都表示还有继续巨大的改进空间,但我们还没有看到任何模型真正超越GPT-4……还没有。”
xAI表示,最近将Grok-2的早期版本引入LMSYS聊天机器人竞技场,名为“sus-column-r”,据称它在整体Elo评分上超过了Claude 3.5 Sonnet和GPT-4 Turbo等模型。聊天机器人竞技场是一个受欢迎的AI模型主观vibemarking网站,但最近因人们对OpenAI的GPT-4o mini在排名中名列前茅而产生争议。
根据xAI的说法,这两个新的Grok模型在研究生级科学知识、一般知识和数学问题解决能力等方面相较于前身Grok-1.5有所改进,而这些基准也同样引发争议。该公司还强调了Grok-2在视觉任务方面的表现,声称在视觉数学推理和基于文档的问题回答中取得了领先的结果。
现在,X Premium和Premium+订阅用户可以通过更新的应用界面访问这些模型。与一些开放权重空间的竞争对手不同,xAI并未发布模型权重以供下载或独立验证。这种封闭的方法与Meta最近发布的Llama 3.1 405B模型形成了鲜明对比,后者允许任何人下载并在本地运行。
xAI计划在本月晚些时候通过企业API发布这两个模型。该公司表示,这个API将提供多区域部署选项和安全措施,如强制多因素认证。定价、使用限制或数据处理政策的细节尚未公布。
除了照片级图像生成之外,Grok-2最大的隐患或许是它与X的深度关联,这使得它倾向于从推文中提取不准确的信息。就好像你有一个朋友,坚决要在回答你的任何问题之前查看社交媒体网站,即使这并不是特别相关。
正如Mollick在X上指出的那样,这种紧密联系可能会很烦人:“我现在只能使用Grok 2 mini,它似乎是一个不错的模型,但常常因为与Twitter的RAG连接而表现不佳,”他写道。“该模型获取的Twitter结果似乎与提示无关,然后拼命试图将它们连接成一个连贯的东西。”