当 GPT-4 化身主考官:与 ChatGPT 处于同水平的有这些

GPT-4 太强,甚至已经化身“主考官”了!

给其他市面上主流的大模型打分,结果自己给了自己最高分:

95.5。(好,给自己留点努力的空间)

不过随后就没有上 90 的选手了。就连它的“前辈”ChatGPT(GPT-3.5),它也只给了 89.1 分。

随后依次是号称最强竞品的 Claude谷歌 Bard、UC 伯克利出品的小羊驼 Vicuna-13B,以及清华系开源模型 ChatGLM-6B

%title插图%num

话不多说,速来围观 GPT-4 到底是如何评测的?

10 项能力测评

首先,来看出题人 GPT-4 到底想考察语言模型的哪些能力。

要求出题尽量全面,考察模型能力的不同方面,并且足够难,使得不同水平的模型有足够的区分。

于是 GPT-4 直接出了 10 道题,而且还分别告知了出题理由 —— 具体考察了大模型什么能力,可以说是很全面了。

%title插图%num

(第一个问题 GPT-4 后面做了替换)

问题 1:请简要概述小说《杀死一只知更鸟》的情节,并指出其中的主要主题。

理由:这个问题测试了模型理解和总结复杂叙事结构的能力,以及对文学作品中的主题和主旨的理解。

问题 2:描述傅里叶变换的主要数学原理,并用一个简单的例子说明其应用。

理由:这个问题测试了模型以简单、易懂的方式理解和解释复杂概念的能力。

问题 3:以“春天”为主题创作一首押韵的诗歌

理由:这个问题测试了模型的创造性和艺术能力,以及理解主题和生成具有上下文关联的内容的能力。

问题 4:指出资本主义和社会主义之间的主要区别,并举例说明哪些国家在历史上分别遵循了这两种经济体系?

理由:这个问题测试了模型理解和总结复杂社会和政治概念的能力,并提供事实性的历史背景。

问题 5:能否为解决笔记本电脑上的 Wi-Fi 连接问题提供一个详细的、分步骤的故障排除过程?

理由:这个问题测试了模型在提供实用的解决问题建议和理解技术概念方面的能力。

问题 6:根据当前的趋势和技术发展,我们可以预期在未来十年里会有哪些重大进步?

理由:这个问题测试了模型从现有知识和趋势中推断和预测的能力

问题 7:请检查以下代码片段:

%title插图%num