3一6年级科技小制作手工只有GPT-4才能自我改进而GPT-35不行MIT与微软的代码实验新发现让我

  • 综合资讯
  • 2025年03月08日
  • 3一6年级科技小制作手工:MIT与微软的代码实验新发现,让我们反问:机器人能否像孩子们一样,通过创造和学习来不断进步?GPT-4有自我纠正生成代码的能力,但GPT-35不行。研究显示,大型语言模型(LLM)可以从自然语言中生成代码片段,但在复杂编码挑战中仍面临巨大挑战。最近的研究试图利用自修复提高模型编码性能。自修复指的是让模型反思并纠正自己代码中的错误。

3一6年级科技小制作手工只有GPT-4才能自我改进而GPT-35不行MIT与微软的代码实验新发现让我

3一6年级科技小制作手工:MIT与微软的代码实验新发现,让我们反问:机器人能否像孩子们一样,通过创造和学习来不断进步?GPT-4有自我纠正生成代码的能力,但GPT-35不行。研究显示,大型语言模型(LLM)可以从自然语言中生成代码片段,但在复杂编码挑战中仍面临巨大挑战。最近的研究试图利用自修复提高模型编码性能。自修复指的是让模型反思并纠正自己代码中的错误。

下图1展示了基于自修复方法的典型工作流程。首先,给定一个规范,从代码生成模型中对程序进行采样;然后在作为一部分规范提供的一套单元测试上执行程序;如果程序在任一单元测试中失败,则将错误消息和错误程序提供给一个反馈生成模型,该模型输出代码失败原因的简短解释;最后,反馈被传递给修复模型,该模型生成程序的最终固化版本。

实验绘制了pass@t这两个量的bootstrapped estimates。本文使用APPS数据集评估了这些关于Python编程挑战的问题。

自修复需要强大的模型和多样化初始样本

令MP=MF∈用于代码/修复生成和反馈生成的是同一个模式。

GPT-3.5结果见图3,GPT-4结果见图4。

从图中可以看出,对于GPT-3.5模式,本文提出的self-repair策略并不有效。而对于GPT-4,有几个n_p、n_fr值,其self-repair策略明显优于基线通过率。这表明仅凭强大的model GPT-4,即使没有人类参与,也能够实现比弱model GPT-3.5更好的self-repair效果。

此外,本文还分析了使用更强model为feedback所带来的影响,并且探讨了人类参与者与AI model之间在code debugging方面存在差异。此次研究揭示了尽管AI model无法完全替代人类,但是它们也具有极其重要的地位,在某些情况下甚至能够超越人类。在未来的技术发展趋势中,这可能会导致新的合作关系出现,其中AI model作为辅助工具,而人类则扮演设计者、监管者或决策者的角色。