科技部官方网站首页GPT-4能否自我进步而GPT-3却无力MIT与微软代码实验揭秘新发现

  • 天文图吧
  • 2025年03月08日
  • 机器之心报道 编辑:赵阳 作为最先进的大型语言模型,GPT-4 能够自我纠正生成代码,并结合人类反馈进一步提高其自我纠正能力。 大型语言模型已被证明能够从自然语言中生成代码片段,但在面对复杂编码挑战时仍然存在巨大的障碍。最近的研究尝试通过利用自我修复来提升模型编码性能。自我修复指的是让模型反思并纠正自己代码中的错误。 下图 1 展示了基于自我修复方法的典型工作流程。首先,给定一个规范

科技部官方网站首页GPT-4能否自我进步而GPT-3却无力MIT与微软代码实验揭秘新发现

机器之心报道

编辑:赵阳

作为最先进的大型语言模型,GPT-4 能够自我纠正生成代码,并结合人类反馈进一步提高其自我纠正能力。

大型语言模型已被证明能够从自然语言中生成代码片段,但在面对复杂编码挑战时仍然存在巨大的障碍。最近的研究尝试通过利用自我修复来提升模型编码性能。自我修复指的是让模型反思并纠正自己代码中的错误。

下图 1 展示了基于自我修复方法的典型工作流程。首先,给定一个规范,从代码生成模型中对程序进行采样;然后在作为一部分规范提供的一套单元测试上执行程序;如果程序在任一单元测试中失败,则将错误消息和错误程序提供给一个反馈生成模型,该模型输出代码失败原因的简短解释;最后,反馈被传递给修复模型,该模型生成程序的最终固化版本。

这种设计似乎非常有吸引力,因为它能让系统克服解码过程中的离群样本引起的错误;在修复阶段,可以轻松地整合来自编译器、静态分析工具和执行引擎等符号系统的反馈,并模仿人类软件工程师编写代码时的试错方式。

实验绘制了这两个量的 bootstrapped estimates(一种统计估计方法)。为了获得这些数值,本文首先为每个任务规范生成一个非常大的修复树,其中:有 N_p≥n_p 个初始程序样本;每个错误程序有 N_f≥n_f 个反馈字符串;并且每个反馈串有 N_r≥n_r 个修复候选。给定(n_p,n_f,n_r)的设置,然后从这个冻结数据集中对 N_t 个不同的修复树进行子采样(带替换)。最后,本文计算了这 N_t 棵树上通过率和树大小的样本均值和标准差。

结果显示,对于 GPT-4 模型,当 n_p=10,n_fr=3 时,其通过率比基线高出5%以上。当 n_p=25,n_fr=1 时,其通过率比基线高出6%以上。这表明 GPT-4 的自我改进功能有效。在另一个实验中,与使用更强的人类参与者相比,当使用 GPT-4 来提供调试信息时,其成功率增加了超过157%。

总结来说,只有 GPT-4 可以实现真正意义上的自动化学习与优化,而其他版本,如 GPT-3.5,不具备此项功能。此次发现不仅验证了科技部官方网站首页公布的心智算法理论,而且为未来的技术研发指明了一条道路,即如何利用人工智能加速软件开发过程,使其更加高效、准确与创新的同时又减少需要人工介入的情况,这对于推动技术创新具有重要意义。