OpenAI Research Scientist Hyung Won Chung 在首尔国立大学发表的一场演讲。
以下是作者写的视频介绍:
------
这次演讲我取名为“2023年的大语言模型”。这是一次激进的尝试,希望能总结一下我们这个日新月异、快速发展的领域。
试图总结这个领域让我深思:在这个领域中,什么是真正关键的呢?虽然“扩展”无疑是显著的,但其深远的意义却更为微妙和细腻。以下,我将从三个方面分享关于“扩展”的思考:
1:02 1)我们需要改变观点,因为只有在一定规模时,某些能力才会浮现。即便当前一代的大语言模型(LLMs)还无法展现出某些能力,我们也不应该轻言“它不行”。相反,我们应该思考“它还没行”。一旦模型规模扩大,许多结论都会发生改变。
这意味着,一些过去的结论已经不再适用,我们需要不断地摒弃那些基于这些过时观点的直觉。
7:12 2)从第一性原理出发,扩大 Transformer 的规模就是让很多很多机器高效地进行矩阵乘法。我注意到,许多大语言模型领域的研究者对扩展的具体操作不太了解。这部分内容主要是为那些想要理解大型模型训练含义的技术人员准备的。
27:52 3)我还讨论了在进一步扩展的时候(设想是 GPT-4 的 10000 倍规模)我们需要考虑什么。对我来说,扩展不只是用更多的机器做同样的事情,更关键的是找到限制进一步扩展的那个“归纳偏见”。
我认为,最大似然估计目标函数是实现 GPT-4 10000倍规模的瓶颈。使用富有表达力的神经网络学习目标函数,将是下一个更加可扩展的范式。随着计算成本的指数级下降,可扩展的方法终将胜出。与此竞争无异于自讨苦吃。
在这些部分中,我都是从第一性原理出发来描述的。在一个发展如此迅速的领域,比如大语言模型,没有人能完全跟上其发展的步伐。我相信,从第一性原理出发理解核心思想,是唯一可行的方式。
免责声明:这里我表达的只是个人观点,并不反映我雇主的任何立场和观点。
------
原始视频:https://t.co/Y0Odckwk7c
注:因时间关系,我仅精校了视频前一半,但整体不影响观看