GPT-4能否自我进化MIT与微软代码实验揭示新发现科技巨头重生之争

首页 > 学术交流 > GPT-4能否自我进化MIT与微软代码实验揭示新发现科技巨头重生之争

GPT-4能否自我进化MIT与微软代码实验揭示新发现科技巨头重生之争

栏目：学术交流
标签：天文学学术交流 , 学术交流 , 杨勇辉国际学术交流中心
更新时间： 2025年03月08日
摘要：机器之心报道编辑：赵阳 GPT-4的自我进化能力如何？MIT与微软的代码实验揭示新发现，科技巨头重生之争！大型语言模型（LLM）已经能够从自然语言中生成代码，但在面对复杂编码挑战时仍然存在巨大的障碍。最近的一项研究尝试通过利用自修复来提高模型的编码性能。自修复指的是让模型反思并纠正自己代码中的错误。下图展示了基于自修复方法的典型工作流程。首先，给定一个规范，从代码生成模型中对程序进行采样

GPT-4能否自我进化MIT与微软代码实验揭示新发现科技巨头重生之争

机器之心报道

编辑：赵阳

GPT-4的自我进化能力如何？MIT与微软的代码实验揭示新发现，科技巨头重生之争！

大型语言模型（LLM）已经能够从自然语言中生成代码，但在面对复杂编码挑战时仍然存在巨大的障碍。最近的一项研究尝试通过利用自修复来提高模型的编码性能。自修复指的是让模型反思并纠正自己代码中的错误。

下图展示了基于自修复方法的典型工作流程。首先，给定一个规范，从代码生成模型中对程序进行采样；然后在作为一部分规范提供的一套单元测试上执行程序；如果程序在任一单元测试中失败，则将错误消息和错误程序提供给一个反馈生成模型，该模型输出代码失败原因的简短解释；最后，反馈被传递给修复模型，该模型生成程序的最终固化版本。

这种设计可以让系统克服解码过程中的离群样本引起的问题；在修复阶段，可以轻松地整合来自编译器、静态分析工具和执行引擎等符号系统的反馈，并模仿人类软件工程师编写代码的试错方式。

实验绘制了两个量——通过率和树大小——bootstrapped estimates。这有助于降低计算成本，因为可以重用相同数据集来计算不同设置下的估计。

本文使用APPs数据集评估了这些关于Python编程挑战的问题。

从结果看，对于GPT-3.5，pass@t始终低于或等于相应基线，而对于GPT-4，有几个n_p、n_fr值，其自修复通过率明显优于基线。在某些情况下，比如当n_p=10，n_fr=3时，通过率增加到70%，比基线提升了5个百分点。

使用更强大的反馈模式改进了GPT-3.5自修复能力，而人类参与者提供的人类调试显著提高了GPT-4成功率。此外，这项研究还发现，与人类参与者的调试相比,GPT-4产生准确性较差且不太可能包括伪代码或显式Python表达式的人工调试。

总结来说，只有GPT-4可以实现有效的人工智能技术升级，而不是像GPT-35这样的简单增强版。MIT与微软合作开发新的AI算法，为未来软件工程带来了革命性的突破。不过，我们也必须意识到，即使是最先进的人工智能，也无法完全替代人类专家的直觉和创造力。在这个不断变化的数字时代，我们需要结合人工智能与人的智慧，以创造出更加完美无瑕、高效能干活业界标准解决方案。而这背后，是科技垄断巨头之间激烈竞争所推动的一场变革大潮。如果你想了解更多关于人工智能如何影响我们的生活，以及未来行业趋势，你就不得不关注这一领域最新动态！

GPT-4能否自我进化MIT与微软代码实验揭示新发现科技巨头重生之争

GPT-4能否自我进化MIT与微软代码实验揭示新发现科技巨头重生之争

猜你喜欢