GPT-4能否自我进化MIT与微软代码实验揭示新发现科技巨头重生之争

  • 学术交流
  • 2025年03月08日
  • 机器之心报道 编辑:赵阳 GPT-4的自我进化能力如何?MIT与微软的代码实验揭示新发现,科技巨头重生之争! 大型语言模型(LLM)已经能够从自然语言中生成代码,但在面对复杂编码挑战时仍然存在巨大的障碍。最近的一项研究尝试通过利用自修复来提高模型的编码性能。自修复指的是让模型反思并纠正自己代码中的错误。 下图展示了基于自修复方法的典型工作流程。首先,给定一个规范,从代码生成模型中对程序进行采样

GPT-4能否自我进化MIT与微软代码实验揭示新发现科技巨头重生之争

机器之心报道

编辑:赵阳

GPT-4的自我进化能力如何?MIT与微软的代码实验揭示新发现,科技巨头重生之争!

大型语言模型(LLM)已经能够从自然语言中生成代码,但在面对复杂编码挑战时仍然存在巨大的障碍。最近的一项研究尝试通过利用自修复来提高模型的编码性能。自修复指的是让模型反思并纠正自己代码中的错误。

下图展示了基于自修复方法的典型工作流程。首先,给定一个规范,从代码生成模型中对程序进行采样;然后在作为一部分规范提供的一套单元测试上执行程序;如果程序在任一单元测试中失败,则将错误消息和错误程序提供给一个反馈生成模型,该模型输出代码失败原因的简短解释;最后,反馈被传递给修复模型,该模型生成程序的最终固化版本。

这种设计可以让系统克服解码过程中的离群样本引起的问题;在修复阶段,可以轻松地整合来自编译器、静态分析工具和执行引擎等符号系统的反馈,并模仿人类软件工程师编写代码的试错方式。

实验绘制了两个量——通过率和树大小——bootstrapped estimates。这有助于降低计算成本,因为可以重用相同数据集来计算不同设置下的估计。

本文使用APPs数据集评估了这些关于Python编程挑战的问题。

从结果看,对于GPT-3.5,pass@t始终低于或等于相应基线,而对于GPT-4,有几个n_p、n_fr值,其自修复通过率明显优于基线。在某些情况下,比如当n_p=10,n_fr=3时,通过率增加到70%,比基线提升了5个百分点。

使用更强大的反馈模式改进了GPT-3.5自修复能力,而人类参与者提供的人类调试显著提高了GPT-4成功率。此外,这项研究还发现,与人类参与者的调试相比,GPT-4产生准确性较差且不太可能包括伪代码或显式Python表达式的人工调试。

总结来说,只有GPT-4可以实现有效的人工智能技术升级,而不是像GPT-35这样的简单增强版。MIT与微软合作开发新的AI算法,为未来软件工程带来了革命性的突破。不过,我们也必须意识到,即使是最先进的人工智能,也无法完全替代人类专家的直觉和创造力。在这个不断变化的数字时代,我们需要结合人工智能与人的智慧,以创造出更加完美无瑕、高效能干活业界标准解决方案。而这背后,是科技垄断巨头之间激烈竞争所推动的一场变革大潮。如果你想了解更多关于人工智能如何影响我们的生活,以及未来行业趋势,你就不得不关注这一领域最新动态!

猜你喜欢