GPT-4

发表于 2023-03-20 分类于 Paper ， Pretrained 阅读次数：本文字数： 2.6k 阅读时长 ≈ 2 分钟

GPT-4 Technical Report

2023-03-14日OpenAI发布的多模态GPT-4，下面是关于它技术报告的一个总结。大多是简单的high-level的描述和输入输出cases，具体模型细节、部署架构等等都没有说。

We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformerbased model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4’s performance based on models trained with no more than 1/1,000th the compute of GPT-4.

1. Introduction

GPT-4是一个能够输入text和image输出text的大模型。GPT-4在很多测试上取得了很好的效果，比如在simulated bar exam（模拟律师资格考试）中超越了90%的人类测试者。

下面是它的一些新特点和技术介绍。

2. Predictable Scaling

Openai开发出了一套能够提前预测不同规模下模型性能的方法，这使得他们能够在使用1000倍到10000倍更少的计算资源的情况下提前预测模型的效果。

（可惜没有提到到底是如何用小模型预测大模型性能的，不过这个肯定是非常重要的大模型将来发展方向）

从上面两个图可以看到，对于GPT-4在不同scale下的性能表现，还是预测的很准的。

另外GPT-4表现出来的比较好的一点是，之前研究者发现在某些任务下随着规模增大，大模型的效果反而可能下降。但是GPT-4奇怪的逆反了这一趋势：

3. Capabilities

接下来是对于GPT-4各种任务表现的说明。OpenAI试验了两个测试版本，一个是在训练集中移除了可能覆盖的测试集内容，然后进行训练；一个是使用完全的原始版本的训练集。最后在两个版本中选择最低的值进行report。下图中小括号里是指超过了多少的人类测试者。部分小括号里是区间因为这些测试是划分等级的，同一分数的人很多。

总体来看很强大了，比如LeetCode easy题能够通过75%，然后中等题和困难题通过数量比GPT-3.5要高很多，不过不清楚这个原因是不是因为网上很多人们问LeetCode题导致本身数据就比较多。

GPT-4比GPT-3.5更强大的是在复杂任务上表现效果好了很多：

和其它大模型进行比较，当然是SOTA了，而且是不需要fine tuning只需要few-shot prompting：

GPT-4在MMLU数据集上对多语言场景的效果（不知为何，没有汉语）：

GPT-4可以输入图像，理解笑话：

GPT-4对于图像还有更多强大的应用场景，比如直接识别图表：

直接回答试卷题目：

识别图片上异常的地方：

直接理解论文……

理解幽默图片……

甚至是进一步理解包含了领域知识的幽默图片：

一句话总结，强的离谱。各种通用领域，特别是公开数据比较容易获得的任务已经被GPT-4以端到端的统一方式很好的完成了。接下来可能需要更多关注公开数据少、可信度和可解释性要求高的场景。最近这一年大量的NLP和多模态小任务会直接被GPT-4终结（除非在证明了GPT-4真的做不好的场景中继续研究），继续投入资源研究无意义了💔 。