GPT-4能自我进化吗MIT与微软代码实验揭秘GPT-3却无此能力简单科技手抄报新发现

首页 > 科研进展 > GPT-4能自我进化吗MIT与微软代码实验揭秘GPT-3却无此能力简单科技手抄报新发现

GPT-4能自我进化吗MIT与微软代码实验揭秘GPT-3却无此能力简单科技手抄报新发现

栏目：科研进展
标签：科研进展 , 天文学科研进展 , 天文科研进展
更新时间： 2025年03月08日
摘要：机器之心报道编辑：赵阳 GPT-4的自我纠正能力如何？MIT与微软代码实验揭秘，GPT-3.5却无此能力！简单科技手抄报新发现大型语言模型（LLM）已被证明能够从自然语言中生成代码片段，但在应对复杂的编码挑战，如专业竞赛和软件工程专业面试时，仍面临巨大的挑战。最近的研究试图通过利用自修复来提高模型编码性能。自修复是指让模型反思并纠正自己代码中的错误。下图1显示了基于自修复方法的典型工作流程

GPT-4能自我进化吗MIT与微软代码实验揭秘GPT-3却无此能力简单科技手抄报新发现

机器之心报道

编辑：赵阳

GPT-4的自我纠正能力如何？MIT与微软代码实验揭秘，GPT-3.5却无此能力！简单科技手抄报新发现

大型语言模型（LLM）已被证明能够从自然语言中生成代码片段，但在应对复杂的编码挑战，如专业竞赛和软件工程专业面试时，仍面临巨大的挑战。最近的研究试图通过利用自修复来提高模型编码性能。自修复是指让模型反思并纠正自己代码中的错误。

下图1显示了基于自修复方法的典型工作流程。首先，给定一个规范，从代码生成模型中对程序进行采样；然后在作为一部分规范提供的一套单元测试上执行程序；如果程序在任一单元测试中失败，则将错误消息和错误程序提供给一个反馈生成模型，该模型输出代码失败原因的简短解释；最后，反馈被传递给修复模型，该模型生成程序的最终固化版本。

实验绘制了这两个量的bootstrapped estimates（一种统计估计方法，通常用于评估参数估计的不确定性）。为了获得这些数值，本文首先为每个任务规范生成一个非常大的修复树，其中：有N_p≥n_p个初始程序样本；每个错误程序有N_f≥n_f个反馈字符串；并且每个反馈串有N_r≥n_r个修复候选。给定(n_p,n_f,n_r)设置，然后从这个冻结数据集中对N_t次不同的修复树进行子采样（带替换）。最后，本文计算了这N_t棵树上通过率和树大小的样本均值和标准差。

本文使用APPS数据集评估了这些关于Python编程挑战的问题。

结果表明，对于GPT-4，有几个np、nf值，其自修复通过率明显优于基线通过率。

GPT-4的人类参与者调试比自己调试更有效。

只有2/80个人贡献了伪代码或显式Python等内容，而绝大多数人类反馈都是自然语言偶尔穿插着数学/代码表达式。

GPT-4更可能产生不准确或直接建议小变化的人类参与者的回应少得多。

这种设计能让系统克服解码过程中的离群样本引起错误，并模仿人类软件工程师编写代码方式尝试解决问题。

然而，这项研究还未解决所有问题，比如当任务变得更加困难时，更强大的反馈如何影响自动化过程，以及是否可以进一步改进自动化策略以减少依赖人工输入的情况。此外，还需要探讨其他类型的问题，以便全面理解这些技术潜力的可能性以及它们可能遇到的局限性。

GPT-4能自我进化吗MIT与微软代码实验揭秘GPT-3却无此能力简单科技手抄报新发现

GPT-4能自我进化吗MIT与微软代码实验揭秘GPT-3却无此能力简单科技手抄报新发现

猜你喜欢