GPT-4能否自我进化MIT与微软代码实验揭秘科技生活手抄报内容中GPT-3的局限

首页 > 科研进展 > GPT-4能否自我进化MIT与微软代码实验揭秘科技生活手抄报内容中GPT-3的局限

GPT-4能否自我进化MIT与微软代码实验揭秘科技生活手抄报内容中GPT-3的局限

栏目：科研进展
标签：科研进展 , 天文学科研进展 , 天文科研进展
更新时间： 2025年03月08日
摘要：机器之心报道编辑：赵阳 GPT-4的自我进化能力如何？MIT与微软的代码实验揭秘，科技生活手抄报内容中GPT-3.5的局限！大型语言模型（LLM）已被证明能够生成代码片段，但在专业竞赛和软件工程面试中仍然面临巨大的挑战。最近的研究尝试通过利用自修复来提高模型编码性能。下图1显示了基于自修复方法的典型工作流程。首先，给定一个规范，从代码生成模型中对程序进行采样

GPT-4能否自我进化MIT与微软代码实验揭秘科技生活手抄报内容中GPT-3的局限

机器之心报道

编辑：赵阳

GPT-4的自我进化能力如何？MIT与微软的代码实验揭秘，科技生活手抄报内容中GPT-3.5的局限！

大型语言模型（LLM）已被证明能够生成代码片段，但在专业竞赛和软件工程面试中仍然面临巨大的挑战。最近的研究尝试通过利用自修复来提高模型编码性能。

下图1显示了基于自修复方法的典型工作流程。首先，给定一个规范，从代码生成模型中对程序进行采样；然后在作为一部分规范提供的一套单元测试上执行程序；如果程序在任一单元测试中失败，则将错误消息和错误程序提供给反馈生成模型，该模型输出代码失败原因的简短解释；最后，反馈被传递给修复模型，该模型生成程序的最终固化版本。

从表面上看，这是一个非常有吸引力的想法。这种设计能让系统克服在解码过程中由离群样本引起的错误；在修复阶段，可以轻松地整合来自编译器、静态分析工具和执行引擎等符号系统的反馈，并模仿人类软件工程师编写代码时试错方式。

实验绘制了这两个量的大致估计值。为了获得这些数值，本文首先为每个任务规范生成一个非常大的修复树，其中：有N_p≥n_p个初始程序样本；每个错误程序有N_f≥n_f个反馈字符串；并且每个反馈串有N_r≥n_r个修复候选。给定(n_p,n_f,n_r)设置，然后从这个冻结数据集中对N_t次不同的子采样进行（带替换）。最后，本文计算了这N_t棵树上通过率和树大小的样本均值和标准差。

本文所有实验中，N_p=50，对于基线无修复方法中的n_p≤50，对于自修复方法中的n_p≤25。在所有设置使用1000次子采样。

结果显示，只有GPT-4可以有效地利用自我纠正功能来提高其编码性能，而GPT-3.5则无法实现这一点。此外，当使用更强的人类参与者作为调试工具时，成功率进一步提升。这项研究还发现，即使是最强大的AI，如GPT-4，其识别出错代码能力也远不及人类开发者的准确性。

因此，我们可以问，如果我们真的相信人工智能能取代人类开发者，那么为什么我们还需要那么多的人才呢？答案可能是，因为即便是现在最先进的人工智能，它们依然无法完全理解或模拟人类开发者的思维模式。而且，由于缺乏深层次的情感联系，以及缺少真实世界经验，因此人工智能很难真正理解用户需求，不仅如此，它们甚至不能像人类那样快速学习新技术。

因此，在未来几年里，我们可能会看到更多关于如何改善AI性能，以至于它们能够更接近但不完全达到人的水平。但直到那时，人力资源管理者必须继续寻找新的方法来吸引、保留并发展他们公司里的顶尖人才——那些拥有创造力、解决问题能力以及持续适应变化的心理特质的人才。

总而言之，这些最新研究成果提醒我们，无论技术如何进步，最宝贵的是那些拥有独特见解与创新精神的人类灵魂。在科技生活的手抄报内容里，这是一个关于人与机器协同效应的问题，也是一场探索未来的哲学讨论。不知您认为呢？

GPT-4能否自我进化MIT与微软代码实验揭秘科技生活手抄报内容中GPT-3的局限

GPT-4能否自我进化MIT与微软代码实验揭秘科技生活手抄报内容中GPT-3的局限

猜你喜欢