John Schulman:但你可以认为,模型生成的输出质量比网上的大多数内容都要高。因此,让模型自己思考似乎更有道理,而不仅仅是训练来模仿网络上的内容。所以,我认为从第一性原理上来说,这是有说服力的。我会说,我们通过后训练取得了很多进步。因此,我不确定。所以,我希望我们会继续推动这种方法,并且可能会增加投入到后训练中的计算力。
Dwarkesh Patel:当前的 GPT-4 的 ELO 分数比最初发布的版本高出了大约 100 分。这是否全都是后训练带来的改进呢?
John Schulman:对,我会说大部分都是后训练带来的。
Dwarkesh Patel:这很有意思。
John Schulman:因此,有很多不同的改进方向。我们会考虑数据质量,数据数量,进行更多的部署和收集新数据的迭代,改变你收集的注解种类。因此,有很多因素叠加在一起。但是全部加在一起,就会带来一个相当不错的,有效的计算力提升。
Dwarkesh Patel:后训练的优化程度对于竞争优势有多大影响呢?
John Schulman:目前,我会区别公司是通过我们的模型有多大等等。那么,找出你之前提到的所有这些数据的复杂问题的公司,会占据大优势吗?
John Schulman:我认为这确实是一个优势,因为这是一个非常复杂的任务。因此,你必须有很多有技能的人来执行它。因此,存在大量的隐性知识。同时也需要大量的组织知识。我认为后训练的过程,创建一个具备人们所关心的所有功能的模型,是十分复杂的。这需要付出大量的努力,它是大量研发工作的积累。我会说这种情况在某种程度上形成了一种壁垒,要想立即启动这种模型并非易事。
John Schulman:我觉得有相当多的经验是关键。自从研究生时期以来,我一直在研究 RL 算法,涉及到数据收集、到注释过程,再到与语言模型的交互。所以,我算是涉猎了这些领域。我认为,在这类研究中表现出色的人通常对整个技术堆栈有全面的了解,并且对其中的各个部分充满好奇心。他们不仅依靠实验证据来更新自己的观点,还会从第一性原理出发思考问题。比如,假设深度学习是有效的,那么理想的收集数据的类型应该是什么,等等。