GPT-4能自我进化吗MIT与微软代码实验揭秘GPT-3却无此能力简单科技手抄报新发现

  • 科研进展
  • 2025年03月08日
  • 机器之心报道 编辑:赵阳 GPT-4的自我纠正能力如何?MIT与微软代码实验揭秘,GPT-3.5却无此能力!简单科技手抄报新发现 大型语言模型(LLM)已被证明能够从自然语言中生成代码片段,但在应对复杂的编码挑战,如专业竞赛和软件工程专业面试时,仍面临巨大的挑战。最近的研究试图通过利用自修复来提高模型编码性能。自修复是指让模型反思并纠正自己代码中的错误。 下图1显示了基于自修复方法的典型工作流程

GPT-4能自我进化吗MIT与微软代码实验揭秘GPT-3却无此能力简单科技手抄报新发现

机器之心报道

编辑:赵阳

GPT-4的自我纠正能力如何?MIT与微软代码实验揭秘,GPT-3.5却无此能力!简单科技手抄报新发现

大型语言模型(LLM)已被证明能够从自然语言中生成代码片段,但在应对复杂的编码挑战,如专业竞赛和软件工程专业面试时,仍面临巨大的挑战。最近的研究试图通过利用自修复来提高模型编码性能。自修复是指让模型反思并纠正自己代码中的错误。

下图1显示了基于自修复方法的典型工作流程。首先,给定一个规范,从代码生成模型中对程序进行采样;然后在作为一部分规范提供的一套单元测试上执行程序;如果程序在任一单元测试中失败,则将错误消息和错误程序提供给一个反馈生成模型,该模型输出代码失败原因的简短解释;最后,反馈被传递给修复模型,该模型生成程序的最终固化版本。

实验绘制了这两个量的bootstrapped estimates(一种统计估计方法,通常用于评估参数估计的不确定性)。为了获得这些数值,本文首先为每个任务规范生成一个非常大的修复树,其中:有N_p≥n_p个初始程序样本;每个错误程序有N_f≥n_f个反馈字符串;并且每个反馈串有N_r≥n_r个修复候选。给定(n_p,n_f,n_r)设置,然后从这个冻结数据集中对N_t次不同的修复树进行子采样(带替换)。最后,本文计算了这N_t棵树上通过率和树大小的样本均值和标准差。

本文使用APPS数据集评估了这些关于Python编程挑战的问题。

结果表明,对于GPT-4,有几个np、nf值,其自修复通过率明显优于基线通过率。

GPT-4的人类参与者调试比自己调试更有效。

只有2/80个人贡献了伪代码或显式Python等内容,而绝大多数人类反馈都是自然语言偶尔穿插着数学/代码表达式。

GPT-4更可能产生不准确或直接建议小变化的人类参与者的回应少得多。

这种设计能让系统克服解码过程中的离群样本引起错误,并模仿人类软件工程师编写代码方式尝试解决问题。

然而,这项研究还未解决所有问题,比如当任务变得更加困难时,更强大的反馈如何影响自动化过程,以及是否可以进一步改进自动化策略以减少依赖人工输入的情况。此外,还需要探讨其他类型的问题,以便全面理解这些技术潜力的可能性以及它们可能遇到的局限性。

猜你喜欢