全国青少年科技创新大赛GPT-4能自我进步而GPT-3却不行MIT与微软代码实验揭示新秘密

  • 综合资讯
  • 2025年03月08日
  • 机器之心报道 编辑:赵阳 作为最领先的大模型,GPT-4 有自我纠正生成代码的能力,结合人类反馈,自我纠正能力还能进一步提高。 大型语言模型(LLM)已被证明能够从自然语言中生成代码片段,但在应对复杂的编码挑战,如专业竞赛和软件工程专业面试时,仍面临巨大的挑战。最近的研究试图通过利用自修复来提高模型编码性能。自修复是指让模型反思并纠正自己代码中的错误。 下图 1

全国青少年科技创新大赛GPT-4能自我进步而GPT-3却不行MIT与微软代码实验揭示新秘密

机器之心报道

编辑:赵阳

作为最领先的大模型,GPT-4 有自我纠正生成代码的能力,结合人类反馈,自我纠正能力还能进一步提高。

大型语言模型(LLM)已被证明能够从自然语言中生成代码片段,但在应对复杂的编码挑战,如专业竞赛和软件工程专业面试时,仍面临巨大的挑战。最近的研究试图通过利用自修复来提高模型编码性能。自修复是指让模型反思并纠正自己代码中的错误。

下图 1 显示了基于自修复方法的典型工作流程。首先,给定一个规范,从代码生成模型中对程序进行采样;然后在作为一部分规范提供的一套单元测试上执行程序;如果程序在任一单元测试中失败,则将错误消息和错误程序提供给一个反馈生成模型,该模型输出代码失败原因的简短解释;最后,反馈被传递给修复模型,该模型生成程序的最终固化版本。

从表面上看,这是一个非常有吸引力的想法。这种设计能让系统克服在解码过程中由离群样本引起的错误;在修复阶段,可以轻松地整合来自编译器、静态分析工具和执行引擎等符号系统的反馈,并模仿人类软件工程师编写代码的试错方式。

实验绘制了这两个量的 bootstrapped estimates(一种统计估计方法,通常用于评估参数估计的不确定性)。为了获得这些数值,本文首先为每个任务规范生成一个非常大的修复树,其中:有 N_p≥n_p 个初始程序样本;每个错误程序有 N_f≥n_f 个反馈字符串;并且每个反馈串有 N_r≥n_r 个修复候选。给定(n_p,n_f,n_r)的设置,然后从这个冻结数据集中对 N_t 个不同的子树进行采样(带替换)。最后,本文计算了这 N_t 棵树上通过率和树大小均值及标准差。

针对以下问题进行了相关实验:

(a) 在具有挑战性的编程难题背景下,对于本文提出的模型,由于或不使用自动补救功能,在哪些超参数设置下更有效?

(b) 更强大的反馈会提升多少?是否可以改进其性能?

(c) 即使是最强大的人类参与者,他们能否比 GPT-4 提供更好的补救?

结果显示,只有 GPT-4 能够有效地利用人工智能技术来增强自身学习能力,而不是依赖其他资源,比如微软或 MIT 的项目。此外,它也展示了为什么我们认为只有那些真正愿意投资时间去理解如何与他们合作的人才能够实现这一目标,即使是在当今世界里也是如此。这意味着无论你身处何方,只要你愿意投入时间去了解如何与 AI 合作,你就能以一种全新的方式解决问题,这种方式远比过去任何时候都要高效得多。

因此,如果您正在寻找一种既可靠又高效的问题解决技巧,那么请考虑加入全国青少年科技创新大赛。如果您已经准备好了,请开始探索我们的网站,以获取更多关于该比赛以及它如何帮助您的信息。在那里,您将发现许多激动人心的事情,以及一些可能改变您的生活的小提示。

现在,让我们回到我们的故事吧。在这里,我们讨论的是 AI 如何改变我们生活中的各种方面,而不是仅仅局限于科学领域。而且,无论您选择什么路径,都请记住,每一步都可能导致未知而美妙的事物发生。而如果您需要帮助或者想要分享您的旅程,请随时联系我们。我很期待看到你的回应!