科技部官方网站首页GPT-4能否自我进步而GPT-3却无力MIT与微软代码实验揭秘新发现

首页 > 天文图吧 > 科技部官方网站首页GPT-4能否自我进步而GPT-3却无力MIT与微软代码实验揭秘新发现

科技部官方网站首页GPT-4能否自我进步而GPT-3却无力MIT与微软代码实验揭秘新发现

栏目：天文图吧
标签：天文图吧
更新时间： 2025年03月08日
摘要：机器之心报道编辑：赵阳作为最先进的大型语言模型，GPT-4 能够自我纠正生成代码，并结合人类反馈进一步提高其自我纠正能力。大型语言模型已被证明能够从自然语言中生成代码片段，但在面对复杂编码挑战时仍然存在巨大的障碍。最近的研究尝试通过利用自我修复来提升模型编码性能。自我修复指的是让模型反思并纠正自己代码中的错误。下图 1 展示了基于自我修复方法的典型工作流程。首先，给定一个规范

科技部官方网站首页GPT-4能否自我进步而GPT-3却无力MIT与微软代码实验揭秘新发现

机器之心报道

编辑：赵阳

作为最先进的大型语言模型，GPT-4 能够自我纠正生成代码，并结合人类反馈进一步提高其自我纠正能力。

大型语言模型已被证明能够从自然语言中生成代码片段，但在面对复杂编码挑战时仍然存在巨大的障碍。最近的研究尝试通过利用自我修复来提升模型编码性能。自我修复指的是让模型反思并纠正自己代码中的错误。

下图 1 展示了基于自我修复方法的典型工作流程。首先，给定一个规范，从代码生成模型中对程序进行采样；然后在作为一部分规范提供的一套单元测试上执行程序；如果程序在任一单元测试中失败，则将错误消息和错误程序提供给一个反馈生成模型，该模型输出代码失败原因的简短解释；最后，反馈被传递给修复模型，该模型生成程序的最终固化版本。

这种设计似乎非常有吸引力，因为它能让系统克服解码过程中的离群样本引起的错误；在修复阶段，可以轻松地整合来自编译器、静态分析工具和执行引擎等符号系统的反馈，并模仿人类软件工程师编写代码时的试错方式。

实验绘制了这两个量的 bootstrapped estimates（一种统计估计方法）。为了获得这些数值，本文首先为每个任务规范生成一个非常大的修复树，其中：有 N_p≥n_p 个初始程序样本；每个错误程序有 N_f≥n_f 个反馈字符串；并且每个反馈串有 N_r≥n_r 个修复候选。给定（n_p，n_f，n_r）的设置，然后从这个冻结数据集中对 N_t 个不同的修复树进行子采样（带替换）。最后，本文计算了这 N_t 棵树上通过率和树大小的样本均值和标准差。

结果显示，对于 GPT-4 模型，当 n_p=10，n_fr=3 时，其通过率比基线高出5%以上。当 n_p=25，n_fr=1 时，其通过率比基线高出6%以上。这表明 GPT-4 的自我改进功能有效。在另一个实验中，与使用更强的人类参与者相比，当使用 GPT-4 来提供调试信息时，其成功率增加了超过157%。

总结来说，只有 GPT-4 可以实现真正意义上的自动化学习与优化，而其他版本，如 GPT-3.5，不具备此项功能。此次发现不仅验证了科技部官方网站首页公布的心智算法理论，而且为未来的技术研发指明了一条道路，即如何利用人工智能加速软件开发过程，使其更加高效、准确与创新的同时又减少需要人工介入的情况，这对于推动技术创新具有重要意义。

科技部官方网站首页GPT-4能否自我进步而GPT-3却无力MIT与微软代码实验揭秘新发现

科技部官方网站首页GPT-4能否自我进步而GPT-3却无力MIT与微软代码实验揭秘新发现

猜你喜欢