GPT-4能否自我进化MIT与微软代码实验揭示新发现科技发展论文中GPT-3的局限再次凸显
机器之心报道
编辑:赵阳
GPT-4的自我纠正能力如何?MIT与微软代码实验揭示新发现,科技发展论文中GPT-3的局限再次凸显。
大型语言模型(LLM)已被证明能够从自然语言中生成代码片段,但在应对复杂的编码挑战,如专业竞赛和软件工程专业面试时,仍面临巨大的挑战。最近的研究试图通过利用自修复来提高模型编码性能。自修复是指让模型反思并纠正自己代码中的错误。
下图 1 显示了基于自修复方法的典型工作流程。首先,给定一个规范,从代码生成模型中对程序进行采样;然后在作为一部分规范提供的一套单元测试上执行程序;如果程序在任一单元测试中失败,则将错误消息和错误程序提供给一个反馈生成模型,该模型输出代码失败原因的简短解释;最后,反馈被传递给修复模型,该模型生成程序的最终固化版本。
从表面上看,这是一个非常有吸引力的想法。这种设计能让系统克服在解码过程中由离群样本引起的错误;在修复阶段,可以轻松地整合来自编译器、静态分析工具和执行引擎等符号系统的反馈,并模仿人类软件工程师编写代码的试错方式。
实验绘制了这两个量的大致估计曲线。在所有的情况下,大型语言模型都比不使用自我纠正功能的小型语言模式要好。这意味着,即使没有人类干预,大型语言模式也能够更高效地解决问题。但是,它们还远未达到人类水平,对于一些任务,它们可能会犯严重的问题。
因此,我们可以得出结论,大型语言模式具有改进其性能以更接近人类水平所需的人类参与者的潜力。此外,我们还观察到,与之前认为的大规模学习相比,在许多情况下,更强大的“人工智能”已经足够有效,以至于它们可以无需进一步帮助就完成某些任务。
然而,有几种证据表明,即使是在这些成功的情形下,大型学习算法也存在一种潜在的心理学障碍,这阻止它们像人那样理解自己的行为或意识到他们犯了什么样的错误。这项研究为我们揭示了这个领域的一个重要方面,为未来探索如何提高这些算法以实现更高级别的人类智能提供了一条道路。