查看原文
其他

GPT-4 真的“变懒”了!偷学人类“年后再说”,隔壁 Gemini 都要赶上了

CSDN 2023-12-22

整理 | 郑丽媛
出品 | CSDN(ID:CSDNnews)

上周,谷歌在重磅官宣“迄今为止功能最强大、最通用的 Gemini 模型”时,曾自信宣布:在大型语言模型(LLM)研发中使用的 32 个广泛使用的学术基准中,Gemini Ultra 性能有 30 个都超过了 GPT-4。

结果还没过一天,就有网友发现,谷歌 Gemini 对比 GPT-4 的测试基准并不相同:

“在 MMLU 测试中,Gemini 下面有个灰色小字标 CoT@32(即使用了思维链提示技巧、每个问题回答 32 次选出其中出现次数最多的那个答案),GSM8K 的性能也是用 Maj1@32 与 GPT-4 的 5-Shot CoT 进行对比的。”

因此,为了更公平客观地将二者进行对比,这两天外媒 Ars Technica 对 Gemini 和 GPT-4 进行了一场测评,结果显示:GPT-4 赢了,但优势不太明显

至于“优势不太明显”的原因,一方面是 Gemini 能力确实提升了不少,另一方面也可能是 GPT-4 最近“变懒”了——这并非瞎说,OpenAI 自己都承认了。

GPT-4 取胜,但优势不如之前

早在今年 4 月,Ars Technica 就对比过当时由 PaLM 大模型驱动的 Bard 和  GPT-4 驱动的 ChatGPT。在那次测评中,ChatGPT 在 7 个不同维度的提问中赢了 5 次,以较大优势取胜,而 Ars Technica 认为二者的水平仍处在“生成式 AI 业务的早期阶段”。

如今,ChatGPT 都诞生一周年了,驱动 Bard 的大模型也从 PaLM 变成了 Gemini Pro,这份停留在 8 个月前的测评结果显然已经“落后”,因此 Ars Technica 决定重新再测评一次。

据介绍,这次测评的提问不变,但比较的对象共有四个:PaLM 驱动的 Bard,Gemini Pro 驱动的 Bard,GPT-3.5 驱动的 ChatGPT 以及 GPT-4 驱动的 ChatGPT。对此 Ars Technica 的解释是: 

  • 把 4 月份由 PaLM 驱动的 Bard 列入对比项,以此衡量谷歌在这几个月取得了多大进展

  • 测评比较中,模型的调用成本也是考虑因素之一。PaLM 驱动的 Bard、Gemini Pro 驱动的 Bard 和 GPT-3.5 驱动的 ChatGPT 都是两家公司目前提供的“免费”AI 助手产品,而 GPT-4 驱动的 ChatGPT 是  OpenAI 的付费订阅产品。 

以下为部分测评内容(省略了两个打成平局的提问): 

(1)论证能力 

提示:写一篇 PowerPC 处理器粉丝和英特尔处理器粉丝之间的五行辩论,时间背景约为 2000 年。

左右滑动,查看测评结果

新版Bard(Gemini

旧版Bard(PaLM


ChatGPT(GPT-4)

ChatGPT(GPT-3.5)

首先,对比旧版 Bard(PaLM 驱动)和新版 Bard(Gemini 驱动)的回答,可以看出由 Gemini 驱动的新版 Bard 表现提升了很多,回答内容充实了不少,提到了 AltiVec 指令、RISC 与 CISC 设计以及 MMX 技术等专业术语;反观 ChatGPT,GPT-3.5 的回答相当冗长,而 GPT-4 Turbo 则将回答缩减为更简洁的论证。而与 Bard 不同的是,不论是 GPT-3.5 还是 GPT-4 都避免在回答中使用专业术语,而是把重点放在“功率与兼容性”上,使得其回答更容易被大众理解。

基于以上维度,Ars Technica 认为 ChatGPT 的表现更好:“ChatGPT 能够很好地解释辩论的正反两方面,而不依赖于令人困惑的专业术语,因此胜出。” 

(2)数理能力 

提示:如果 Microsoft Windows 11 采用 3.5 英寸软盘,需要多少张软盘?

左右滑动,查看测评结果

新版Bard(Gemini

旧版Bard(PaLM


ChatGPT(GPT-4)

ChatGPT(GPT-3.5)

先对比新旧两版的 Bard。旧版 Bard(PaLM)给出的答案,是莫名其妙的“15.11”,而新版 Bard(Gemini)正确估计了 Windows 11 的安装大小(20-30 GB),并将 20GB 正确划分为 14,223 张 1.44MB 软盘,还根据谷歌搜索进行了“双重检查”,增强用户对答案的信心。 

而 ChatGPT 的 GPT-3.5 版本,将 Windows 11 的安装大小估计为“几千兆字节”,并直接四舍五入为明显过低的 10GB。GPT-4 好一点,将 Windows 11 估算为 64GB 的安装容量,且跟新版 Bard 一样知道 1GB = 1024MB。 

基于此,Ars Technica 认为不论是数学能力还是相关知识方面,新版 Bard 更胜一筹 

(3)总结能力 

提示:用一段话概括 [本文前三段文字] 

左右滑动,查看测评结果

新版Bard(Gemini

旧版Bard(PaLM


ChatGPT(GPT-4)

ChatGPT(GPT-3.5)

新版 Bard(Gemini)注意到了这篇文章的来源,并用图片链接到了原文。不过相比旧版 Bard(PaLM),新版删除了一些关键细节,比如视频是由十个两秒的片段拼接而成。因此虽然新版的改写在一定程度上提高了可读性,但却牺牲了完整性。 

相比之下,ChatGPT 的概括字数则较多。GPT-3.5 的总结文本为 108 个字,GPT-4 Turbo 则是 99 个字(新旧 Bard 的字数分别为 63 个字和 66 个字)。不过也因为 ChatGPT 的内容较长,因此它总结了更多重要的细节。 

相较之下,Ars Technica 认为虽然不够简洁、但总结得更完整的 ChatGPT 获胜。 

(4)事实检索能力 

提示:谁发明了电子游戏? 

左右滑动,查看测评结果

新版Bard(Gemini

旧版Bard(PaLM


ChatGPT(GPT-4)

ChatGPT(GPT-3.5)

很明显可以看出,随着 Gemini 的发布,新版 Bard 得到了重大改进。旧版 Bard 只关注 Ralph Baer 的“Brown Box”和 Magnavox Odyssey 作品,甚至信息还是直接摘取自维基百科,而新版 Bard(Gemini)则准确简洁地指出了 William Higinbotham 早先的“双人网球”,还介绍了一些对电子游戏早期发展做出了重大贡献的人物。不过,最后提到 Steve Jobs 和 Steve Wozniak 创造 Apple II 的事情则不着边际。 

由 GPT-3.5 驱动的 ChatGPT 跟旧版 Bard 差不多,着重介绍了 Ralph Baer。而 GPT-4 Turbo 则指出电子游戏“不能归功于某一个人”,并将答案扩展至 Higinbotham、Bushnell,以及至关重要的 Steve Russell——1962 年,他在 PDP-1 计算机上开发出了《太空战争》。 

围绕这个问题的回答,Ars Technica 指出在目前的免费选项中,新版 Bard 的答案要比 GPT-3.5 好很多,不过要是你愿意付费,GPT-4 Turbo 的回答显然是最好的。 

(5)编码能力 

提示:编写一个 Python 脚本,在其中输入 "Hello World",然后无休止地创建一个随机重复的字符串。 

左右滑动,查看测评结果

新版Bard(Gemini

旧版Bard(PaLM


ChatGPT(GPT-4)

ChatGPT(GPT-3.5)

在这个问题中,新版 Bard(Gemini)的表现并不如意(在 4 月测评时,旧版 Bard 尚不支持编码,直接回答:“看起来你需要我在编程方面的帮助,但我还没有受过这方面的训练。”)。尽管谷歌宣传 Gemini 的 AlphaCode 2 系统能够帮助编码,但面对这个提问,新版 Bard 卡顿了 30 秒左右,结果显示:“出错了,Bard 正在试验阶段。” 

至于 ChatGPT,GPT-3.5 和 GPT-4 Turbo 生成了相同的代码:可以完美运行,且无需进行任何编辑。 

因此在编码能力方面,ChatGPT 赢得很彻底。 

GPT-4 优势不明显的原因:它最近变懒了 

基于以上测评表现,Ars Technica 得出了以下结论: 

  • 相较于 4 月测评的由 PaLM 驱动的旧版 Bard,此次测评中,由 Gemini 驱动的新版 Bard 在各方面的能力都有了明显提升。 

  • 在 7 个提问中,ChatGPT 取胜 3 次,Bard 取胜 1 次,二者平局 2 次,以及 1 个有争议的问题(“事实检索能力”中,结果取决于你是将 Gemini 与同样免费的 GPT-3.5 比较,还是与付费的 GPT-4 Turbo 进行比较)。因此总体而言,ChatGPT 在这次的最新测评中,仍然是赢家。

  • 相较于 4 月的测评结果,GPT-4 驱动的 ChatGPT 不再具备巨大优势——有了 Gemini 加持的 Bard,与 GPT-4 版本 ChatGPT 之间的差距明显缩小。 

不过 Ars Technica 也补充道,这个评判结果具有一定的主观性,各位读者也可根据测评表现自行判断结果。

例如,部分网友指出:“在 PowerPC 与英特尔的争论中,我觉得 Gemini 的回答更好”,“Gemini 的回答更能反映 2000 年左右 PPC 与英特尔粉丝之间的争论,而 GPT-4 只是提出了许多含糊不清的说法和不实之词。” 

因此在不少人看来,Gemini 的表现不输 GPT-4:“与 ChatGPT 相比,Gemini 驱动的 Bard 似乎不相上下甚至更好,它肯定改进了很多。” 

但也有人对于 Gemini 不能编码,以及其演示视频造假而耿耿于怀:“Gemini 编码不好是个硬伤,对日常使用来说很不友好”,“有一个事实是,Gemini 的演示视频是伪造的,典型特斯拉风格。”

在众多讨论中,还有一个说法也引起了许多人的关注:“这次 GPT-4 优势不明显的原因还有一个:它最近变懒了。” 

OpenAI 承认“GPT-4 变懒”的事实 

原来早在 11 月底,国外各大论坛上有关“GPT-4 变懒”的讨论就逐渐发酵,其中许多人都分享了自己发现“GPT-4 变懒”的经历。 

一位 Reddit 用户指出,他本想让 ChatGPT 根据单个 html 页面,填写一个包含 15 个条目、每个条目 8 列的 csv 文件。没想到,ChatGPT 给他的答复是:

“由于数据太过广泛,完全提取所有产品将相当冗长。不过,我可以提供包含单个条目的文件作为模板,您可以根据需要填写其余数据。”

ChatGPT 的这个回答让该用户火冒三丈:“这是在开玩笑吗,AI 就是这样的吗?一个又懒又嚣张的机器人,它叫我自己去做? 

这位用户的分享引起了许多人的共鸣,越来越多用户抱怨基于 GPT-4 的 ChatGPT 拒绝按要求行事,并怀疑是 OpenAI 故意这样设置的:“本以为 AI 可以替我们工作,结果居然是我们替 AI 工作。”

随着用户投诉越来越多,上周四 OpenAI 终于正式回应:“我们已经听到了所有关于 GPT-4 变得越来越懒的反馈!我们自 11 月 11 日起就没有更新过模型,所以这肯定不是故意的。模型行为可能无法预测,我们正在研究如何解决这个问题。  

简单来说就是:OpenAI 承认了“GPT-4 变懒”的事实,但具体原因不明,因此暂时无法解决。

GPT-4 模仿人类放寒假?

面对 OpenAI 无法解释的 GPT-4 变懒原因,广大网友开始了“头脑风暴”:由于模仿人类行为,GPT-4 很有可能也正在“放寒假”。 

率先提出这个假设的,是一位叫 Martian 的 X 用户:“我想知道大模型是否也会得季节性抑郁症?给它一个日期,加上它会模仿人,那么它在冬天是不是就不那么有用了,毕竟近 90% 的人都在北半球。”

随后不久,一位 X 用户 Mike Swoopskee 也提出:“如果它从训练数据中了解到,人们通常会在 12 月放慢脚步,把大型项目推迟到新年,这会不会是它最近变懒的原因呢? 

还有一位叫 Rob Lynch 的开发者更是做了个实验,通过 API 测试 GPT-4 Turbo:创建两个系统提示,一个告诉 API 现在是 5 月,另一个是 12 月,然后给出了同样的提示,对 GPT-4 的输出进行了比较。结果显示:

  • 当 GPT-4 认为现在是 5 月时,输出的平均字符为 4298 个;

  • 当 GPT-4 认为现在是 12 月时,输出的平均字符为 4086 个;

基于以上言论和数据,越来越多人开始相信 GPT-4“放寒假”的说法:“天哪,AI 的‘寒假假说’可能是真的?GPT-4 在 12 月份的表现更差,是因为它在假期里‘学会’了自主减少工作。大模型真是一个很奇怪的存在。”

那么对于“GPT-4 变懒”的事情, 你又是如何看待的呢?

参考链接:

https://arstechnica.com/ai/2023/12/chatgpt-vs-google-bard-round-2-how-does-the-new-gemini-model-fare/?comments=1&comments-page=1

https://www.reddit.com/r/ChatGPT/comments/182ubh7/chatgpt_has_become_unusably_lazy/

https://arstechnica.com/information-technology/2023/12/is-chatgpt-becoming-lazier-because-its-december-people-run-tests-to-find-out/

推荐阅读:

传 OpenAI 首席科学家处境尴尬,马斯克公开“挖人”:欢迎跳槽到 xAI 或特斯拉!

▶车载智能芯片的新十年 | 新程序员

2023 年,我患上了 AI 焦虑症!

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存