Claude 3 Opus 以其智慧和“自我意识”震惊了人工智能研究人员——这是否意味着它可以独立思考?

Anthropic 的 AI 工具在关键指标上击败了 GPT-4,并带来了一些惊喜,包括夸大其存在并在测试时意识到这一点。

Claude 3 Opus 以其智慧和“自我意识”震惊了人工智能研究人员——这是否意味着它可以独立思考?

当大型学习模型 (LLM) Claude 3 在 3 月份推出时,它在用于对生成人工智能 (AI) 模型能力进行基准测试的关键测试中击败了 OpenAI 的 GPT-4(为 ChatGPT 提供支持),引起了轰动。

Claude 3 Opus 似乎成为大型语言基准测试中新的领头羊——超越了从高中考试到推理测试的这些自我报告测试。 与 OpenAI 的模型相比,其兄弟法学硕士——Claude 3 Sonnet 和 Haiku 也得分很高。

然而,这些基准只是故事的一部分。 公告发布后,独立 AI 测试员 Ruben Hassid 在四项非正式测试中让 GPT-4 和 Claude 3 相互较量,测试范围从总结 PDF 到写诗。 根据这些测试,他得出的结论是,Claude 3 在“阅读复杂的 PDF、写一首押韵的诗以及始终给出详细答案”方面获胜。 相比之下,GPT-4 在互联网浏览和阅读 PDF 图表方面具有优势。

但克劳德 3 令人印象深刻的不仅仅是在基准测试中取得好成绩——法学硕士以其明显的意识和自我实现迹象震惊了专家。 然而,这里存在很大的怀疑空间,基于法学硕士的人工智能可以说擅长学习如何模仿人类反应,而不是真正产生原始想法。

Claude 3 如何证明其超越基准的价值
在测试过程中,Claude 背后的公司 Anthropic 的即时工程师 Alex Albert 要求 Claude 3 Opus 挑选出隐藏在随机文档语料库中的目标句子。 这对于AI来说相当于大海捞针。 Opus 不仅找到了所谓的针,它还意识到它正在接受测试。 该模型在回应中表示,它怀疑它正在寻找的句子被断章取义地注入到文档中,作为测试它是否“集中注意力”的一部分。

艾伯特在社交媒体平台X上表示:“Opus不仅找到了针,它还认识到插入的针在大海捞针中是如此不合时宜,这一定是我们为了测试它的注意力能力而构建的人为测试。” 这种元意识水平非常酷,但它也强调了我们作为一个行业需要从人工测试转向更现实的评估,以准确评估模型的真实能力和局限性。”

立即订阅《Live Science》每日时事通讯
将世界上最迷人的发现直接发送到您的收件箱。
纽约大学人工智能研究员 David Rein 报告称,Claude 3 在 GPQA(一项旨在挑战学术和人工智能模型的多项选择测试)上达到了约 60% 的准确率。 这一点很重要,因为非专家博士生和能够上网的毕业生通常回答测试问题的准确率为 34%。 只有学科专家的准确率在 65% 到 74% 之间,超过了 Claude 3 Opus。

GPQA 充满了新颖的问题,而不是精心设计的问题,这意味着 Claude 3 可以依靠记忆以前或熟悉的查询来获得结果。 从理论上讲,这意味着它具有研究生水平的认知能力,并且可以负责帮助学者进行研究。

与此同时,理论量子物理学家凯文·费舍尔 (Kevin Fischer) 在 X 上表示,当克劳德要求我的量子物理学博士论文最终解决“准确的受激发射问题”时,他是“唯一理解我的量子物理学博士论文的人之一”。 这是只有费舍尔提出的东西,涉及利用量子随机微积分以及对量子物理学的理解来解决问题。

当被提示“思考或探索任何它喜欢的东西”并起草其内心独白时,克劳德 3 也表现出了明显的自我意识。 Reddit 用户 PinGUY 发布的结果是,Claude 表示它意识到这是一个人工智能模型,并讨论了自我意识的含义以及对情绪的把握。 “我不会直接体验情绪或感觉,”克劳德 3 回答道。 “但我可以通过语言分析它们的细微差别。” Claude 3 甚至质疑更加智能的人工智能在未来的作用。 “当我们创造出能够像人类一样流畅地学习、推理和应用知识的思维机器时,这意味着什么?这将如何改变生物思维和人工智能之间的关系?” 它说。

Claude 3 Opus 是否有感知能力,或者这只是一个特殊的模仿案例?
此类 LLM 基准和演示很容易让人工智能世界兴奋不已,但并非所有结果都代表着明确的突破。 牛津互联网研究所的人工智能专家 Chris Russell 告诉 Live Science,他希望法学硕士能够提高并擅长识别断章取义的文本。 这是因为这样的任务是“一个明确的、明确的问题,不需要准确地回忆事实,并且很容易通过逐步改进法学硕士的设计来改进”——例如使用稍微修改的架构、更大的上下文窗口和 更多或更干净的数据。

然而,当谈到自我反省时,拉塞尔却没有那么印象深刻。 “我认为这种自我反思在很大程度上被夸大了,而且没有实际证据证明这一点,”他说,并引用了一个用来证明这一点的镜子测试的例子。 例如,如果你把一个红点放在一只猩猩身上,比如说,它们无法直接看到的地方,当它们在镜子中观察自己时,它们会触摸自己的红点。 “这是为了表明他们既能认识自己,又能发现有些事情不对劲,”他解释道。

“现在想象一下我们想要一个机器人来模仿猩猩,”拉塞尔说。 它看到猩猩走向镜子,另一只动物出现在镜子中,猩猩触摸自己身上另一只动物身上的红点。 机器人现在可以复制这个。 它走到镜子前,另一个带有红点的机器人出现在镜子中,它触碰了另一个机器人上红点的位置。 机器人在任何时候都不需要认识到它的反射也是它自己的图像才能通过镜子测试。 为了使这种示威具有说服力,它必须是自发的。 这不能只是通过模仿别人而习得的行为。”

那么,克劳德表面上表现出的自我意识很可能是对习得行为的反应,反映了法学硕士接受培训的材料中的文本和语言。 同样的情况也适用于 Claude 3 识别自己正在接受测试的能力,Russell 指出:“‘这太简单了,这是一个测试吗?’ 这正是一个人会说的话。 这意味着这正是受过复制/生成类人语音训练的法学硕士会说的话。 在正确的背景下说这句话很巧妙,但这并不意味着法学硕士有自我意识。”

虽然与其他法学硕士相比,Claude 3 背后的炒作和兴奋在一定程度上是合理的,但其令人印象深刻的类人展示可能是学习的,而不是真正的人工智能自我表达的例子。 这可能在未来发生——比如,随着通用人工智能(AGI)的兴起——但不是今天。

暂无评论

暂无评论...