GPT-4能否自我进化MIT与微软代码实验揭秘新发现

栏目：综合资讯
标签：天文学综合新闻
更新时间： 2025年03月08日
摘要：机器之心报道编辑：赵阳 GPT-4的自我进化能力如何？MIT与微软代码实验揭秘新发现！作为最先进的大型语言模型，GPT-4能结合人类反馈，进一步提高自我纠正生成代码的能力。大型语言模型已被证明能够从自然语言中生成代码片段，但在面对复杂编码挑战时仍有巨大难题。最近的研究试图通过利用自修复来提升模型编码性能。自修复指的是让模型反思并修正自己代码中的错误。

机器之心报道

编辑：赵阳

GPT-4的自我进化能力如何？MIT与微软代码实验揭秘新发现！

作为最先进的大型语言模型，GPT-4能结合人类反馈，进一步提高自我纠正生成代码的能力。

大型语言模型已被证明能够从自然语言中生成代码片段，但在面对复杂编码挑战时仍有巨大难题。最近的研究试图通过利用自修复来提升模型编码性能。自修复指的是让模型反思并修正自己代码中的错误。

下图1展示了基于自修复方法的典型工作流程。首先，从给定的规范中对程序进行采样；然后在单元测试上执行程序；如果程序失败，则提供错误消息和错误程序给反馈生成模型，该输出简短解释失败原因；最后，将反馈传递给修复模型，生成最终固化版本。

这种设计可以克服解码过程中的离群样本引起的错误，并且可以轻松整合来自编译器、静态分析工具和执行引擎等符号系统的反馈，模仿人类软件工程师编写代码的试错方式。

实验绘制了通过率与token数量关系（pass@t）。为了获得这些数值，本文首先为每个任务规范生成一个非常大的修复树，其中包括初始程序样本、每个错误程序多个反馈字符串，以及每个反馈串多个候选解决方案。

研究者针对以下问题进行了相关实验：

（a）对于具有挑战性编程难题，本文提出的模型是否比不使用该方法更有效？

（b）更强大的反馈会提高修复性能吗？

（c）即使是最强大的模型，让人参与提供反馈会带来更好的性能？

本文使用APPSS数据集评估了这些疑惑。

结果表明，对于GPT-3.5，没有任何n_p或n_f值下的self-repair策略是有效的。但是，对于GPT-4，有几个n_p或n_f值下的self-repair策略显示出显著改善，比如当n_p=10或25时，当n_fr=3时增加到了70%，当n_fr=1时增加到了71%。

接下来，本文评估了一种假设，即一个单独，更强的人类调试器能够改善GPT-3.5 self-repair能力。这一假设得到了证实，因为M_P=GPT-3.5, M_F=GPT-4组合显示出超越独立同分布采样的效率。

最后，本文考虑了专业人类开发者的调试输入，并发现他们提供的情报量远超过所需，同时准确度也高于机器。在这个过程中，他们通常以自然语言描述问题，而不是伪代数或Python语法，这表明虽然技术可能需要精确性，但理解和洞察通常依赖于更广泛的人类直觉和经验。