GPT-4能否自我进化MIT与微软代码实验揭秘新发现

  • 综合资讯
  • 2025年03月08日
  • 机器之心报道 编辑:赵阳 GPT-4的自我进化能力如何?MIT与微软代码实验揭秘新发现! 作为最先进的大型语言模型,GPT-4能结合人类反馈,进一步提高自我纠正生成代码的能力。 大型语言模型已被证明能够从自然语言中生成代码片段,但在面对复杂编码挑战时仍有巨大难题。最近的研究试图通过利用自修复来提升模型编码性能。自修复指的是让模型反思并修正自己代码中的错误。

GPT-4能否自我进化MIT与微软代码实验揭秘新发现

机器之心报道

编辑:赵阳

GPT-4的自我进化能力如何?MIT与微软代码实验揭秘新发现!

作为最先进的大型语言模型,GPT-4能结合人类反馈,进一步提高自我纠正生成代码的能力。

大型语言模型已被证明能够从自然语言中生成代码片段,但在面对复杂编码挑战时仍有巨大难题。最近的研究试图通过利用自修复来提升模型编码性能。自修复指的是让模型反思并修正自己代码中的错误。

下图1展示了基于自修复方法的典型工作流程。首先,从给定的规范中对程序进行采样;然后在单元测试上执行程序;如果程序失败,则提供错误消息和错误程序给反馈生成模型,该输出简短解释失败原因;最后,将反馈传递给修复模型,生成最终固化版本。

这种设计可以克服解码过程中的离群样本引起的错误,并且可以轻松整合来自编译器、静态分析工具和执行引擎等符号系统的反馈,模仿人类软件工程师编写代码的试错方式。

实验绘制了通过率与token数量关系(pass@t)。为了获得这些数值,本文首先为每个任务规范生成一个非常大的修复树,其中包括初始程序样本、每个错误程序多个反馈字符串,以及每个反馈串多个候选解决方案。

研究者针对以下问题进行了相关实验:

(a)对于具有挑战性编程难题,本文提出的模型是否比不使用该方法更有效?

(b)更强大的反馈会提高修复性能吗?

(c)即使是最强大的模型,让人参与提供反馈会带来更好的性能?

本文使用APPSS数据集评估了这些疑惑。

结果表明,对于GPT-3.5,没有任何n_p或n_f值下的self-repair策略是有效的。但是,对于GPT-4,有几个n_p或n_f值下的self-repair策略显示出显著改善,比如当n_p=10或25时,当n_fr=3时增加到了70%,当n_fr=1时增加到了71%。

接下来,本文评估了一种假设,即一个单独,更强的人类调试器能够改善GPT-3.5 self-repair能力。这一假设得到了证实,因为M_P=GPT-3.5, M_F=GPT-4组合显示出超越独立同分布采样的效率。

最后,本文考虑了专业人类开发者的调试输入,并发现他们提供的情报量远超过所需,同时准确度也高于机器。在这个过程中,他们通常以自然语言描述问题,而不是伪代数或Python语法,这表明虽然技术可能需要精确性,但理解和洞察通常依赖于更广泛的人类直觉和经验。