GPT-4能否自我进化MIT与微软代码实验揭示了新发现是否意味着综合国力的突破

  • 天文图吧
  • 2025年03月08日
  • 机器之心报道 编辑:赵阳 GPT-4的自我进化能力如何?MIT与微软的代码实验揭示了新发现,是否意味着综合国力的突破? 作为最领先的大模型,GPT-4有自我纠正生成代码的能力,结合人类反馈,自我纠正能力还能进一步提高。 大型语言模型(LLM)已被证明能够从自然语言中生成代码片段,但在应对复杂的编码挑战,如专业竞赛和软件工程专业面试时,仍面临巨大的挑战

GPT-4能否自我进化MIT与微软代码实验揭示了新发现是否意味着综合国力的突破

机器之心报道

编辑:赵阳

GPT-4的自我进化能力如何?MIT与微软的代码实验揭示了新发现,是否意味着综合国力的突破?

作为最领先的大模型,GPT-4有自我纠正生成代码的能力,结合人类反馈,自我纠正能力还能进一步提高。

大型语言模型(LLM)已被证明能够从自然语言中生成代码片段,但在应对复杂的编码挑战,如专业竞赛和软件工程专业面试时,仍面临巨大的挑战。最近的研究试图通过利用自修复来提高模型编码性能。自修复是指让模型反思并纠正自己代码中的错误。

下图1显示了基于自修复方法的典型工作流程。首先,给定一个规范,从代码生成模型中对程序进行采样;然后在作为一部分规范提供的一套单元测试上执行程序;如果程序在任一单元测试中失败,则将错误消息和错误程序提供给一个反馈生成模型,该模型输出代码失败原因的简短解释;最后,反馈被传递给修复模型,该模型生成程序的最终固化版本。

从表面上看,这是一个非常有吸引力的想法。这种设计能让系统克服在解码过程中由离群样本引起的错误;在修复阶段,可以轻松地整合来自编译器、静态分析工具和执行引擎等符号系统的反馈,并模仿人类软件工程师编写代码的试错方式。

然而,对于GPT-3.5来说,这种设计并不是有效策略,而对于GPT-4来说,有几个超参数设置下的通过率明显优于基线。这表明GPT-4比GTP-3.5更适合使用自我纠正技术。

此外,本文还探讨了使用更强大的反馈模式以及人类参与者的作用。在所有情况下,都得出结论,即使是最强大的AI也无法完全替代人类参与者,因为他们能够提供更加准确、具体且有用的信息。

因此,在评估这些结果时,我们必须考虑到这些发现可能对未来的AI发展具有重要意义。如果我们希望创建出可以独立解决问题甚至超越人类水平的问题解决者,那么我们就需要继续开发出更为强大的算法,以及找到有效的人工智能与人工智能之间合作方式。

这项研究不仅展示了AI目前所能达到的高度,也提出了许多关于如何进一步提升它们功能的问题。本文最后总结说:“虽然我们已经取得了一些令人鼓舞的地步,但还有很多路要走。”