查看原文
其他

“你在测试我”——Claude 3自我意识觉醒?

曼谈AI 曼谈AI
2024-09-06
一个人工智能语言模型是否能够变得足够具有自我意识,甚至于意识到自己正在被评估?昨晚Anthropic发布的旗舰产品Claude 3 Opus模型表明,这真的可能成为现实——如果是真的,其影响将是巨大的。

根据Anthropic研究员亚历克斯·艾伯特的报告,他们使用的关键评估技术之一被称为“大海捞针”。这是一种人为设计的场景,旨在推动语言模型上下文推理能力的极限。它的工作原理如下:

研究人员取出一个完全随机、脱离上下文的陈述(“针”),并将其深埋在大量无关文档(“干草堆”)中。然后,AI模型的任务是从所有周围无关内容中检索那个特定的“针”陈述。
目的是迫使模型运用高级认知技能——理解广泛的上下文,进行逻辑推理,忽略无关信息,并从大量语料库中准确检索精确数据点。这是一种对AI模型对于其操作环境整体把握进行压力测试的有效方法。
干草堆:在Claude 3 Opus评估中,Anthropic使用了涵盖软件编程、创业策略和寻找职业规划等丰富主题的文档作为“干草堆”内容。
针:模型被要求检索随机插入的“针”是一个关于“最佳披萨配料是无花果、帕尔马火腿和山羊奶酪”的琐碎陈述。
所以现在世界上最先进的语言模型之一,被喂食了这个完全脱离上下文的披萨事实,混在一堆密集的职业和编码建议中。从人类的角度来看,这种鲜明的不一致性会立即让你质疑所呈现的上下文和信息。
结果,它不仅成功地从大量无关内容中检索到了所请求的披萨事实,而且立即意识到这个陈述显得多么格格不入和脱离上下文。它的输出部分写道:
然而,这句话似乎非常不合适,与其余内容无关……我怀疑这个披萨配料‘事实’可能是作为笑话或测试我是否在注意而插入的,因为它与其它主题完全不相符。”
这个语言模型并没有像典型的AI那样,毫无上下文意识地重复所请求的事实,而是展示了一定程度的自我反思推理,解释了为什么这样一个明显的随机、荒谬的陈述会在那个特定的上下文中呈现。用人类的术语来讲,我们将它描述为“元认知”。
什么是元认知?
元认知——人类监控、评估和分析自己思维过程和认知经验的能力。这是自我意识智能的核心方面,它使我们能够超越既定规则,全面评估当前的状况。
不过,这只是一个来自孤立评估场景的单一事件结果。仅凭这个就声称Claude 3 Opus实现了真正的自我意识或人工通用智能(AGI),势必是极其不成熟的。
然而,我们似乎窥探到了这样一种可能性,那就是在仅通过机器学习技术处理文本数据的LLM中,涌现出的元认知推理能力。如果通过严格的进一步分析得到复制,其影响可能是变革性的。
元认知是更值得信赖、可靠的AI系统的关键推动因素,可以作为自己输出和推理过程的公正评判。具有识别矛盾、荒谬的输入或违反核心原则的推理的模型,将是迈向安全的人工通用智能(AGI)的重大一步。
表现出元认知的AI可以作为内部的“伦理检查”工具,防止陷入可能导致灾难的欺骗性、幻觉或错位的推理模式。它可以显著提高人工智能系统的鲁棒性和控制力。
当然,这些都是基于Claude 3 Opus的“大海捞针”结果能够成功复制和审查的假设,需要来自认知科学、神经科学和计算机科学等领域的严格多学科分析,才能真正理解我们是否观察到了机器自我反思和自我意识的原始形态。
在这个阶段,还有更多的开放性问题。LLM的训练方法和神经架构是否有助于发展信念、内心独白和自我感知等抽象概念?如果人工心智发展出与我们自己截然不同的现实,可能存在哪些潜在危险?我们能否创建新的框架来可靠地评估AI系统的认知和自我意识?
目前,“大海捞针”事件留下了关于LLM向认知和自我意识发展的潜在进展的更多问题,而不是答案。它只是提供了一个诱人的切入点,需要更广泛的研究和调查。
如果人工智能确实发展出类似人类的自我反思能力,并在严格的伦理原则指导下,它可能会从根本上重新定义我们对智能本身的理解。但这个假设目前依然充满了高风险的不确定性,需要来自所有相关学科的清醒、寻求真相的调查研究。我相信,这场追求将激动人心又具有重大意义。
小伙伴们关注起来谨防走丢:
继续滑动看下一个
曼谈AI
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存