GPT-4能否自我进化MIT与微软代码实验揭秘科技生活手抄报内容中GPT-3的局限

  • 科研进展
  • 2025年03月08日
  • 机器之心报道 编辑:赵阳 GPT-4的自我进化能力如何?MIT与微软的代码实验揭秘,科技生活手抄报内容中GPT-3.5的局限! 大型语言模型(LLM)已被证明能够生成代码片段,但在专业竞赛和软件工程面试中仍然面临巨大的挑战。最近的研究尝试通过利用自修复来提高模型编码性能。 下图1显示了基于自修复方法的典型工作流程。首先,给定一个规范,从代码生成模型中对程序进行采样

GPT-4能否自我进化MIT与微软代码实验揭秘科技生活手抄报内容中GPT-3的局限

机器之心报道

编辑:赵阳

GPT-4的自我进化能力如何?MIT与微软的代码实验揭秘,科技生活手抄报内容中GPT-3.5的局限!

大型语言模型(LLM)已被证明能够生成代码片段,但在专业竞赛和软件工程面试中仍然面临巨大的挑战。最近的研究尝试通过利用自修复来提高模型编码性能。

下图1显示了基于自修复方法的典型工作流程。首先,给定一个规范,从代码生成模型中对程序进行采样;然后在作为一部分规范提供的一套单元测试上执行程序;如果程序在任一单元测试中失败,则将错误消息和错误程序提供给反馈生成模型,该模型输出代码失败原因的简短解释;最后,反馈被传递给修复模型,该模型生成程序的最终固化版本。

从表面上看,这是一个非常有吸引力的想法。这种设计能让系统克服在解码过程中由离群样本引起的错误;在修复阶段,可以轻松地整合来自编译器、静态分析工具和执行引擎等符号系统的反馈,并模仿人类软件工程师编写代码时试错方式。

实验绘制了这两个量的大致估计值。为了获得这些数值,本文首先为每个任务规范生成一个非常大的修复树,其中:有N_p≥n_p个初始程序样本;每个错误程序有N_f≥n_f个反馈字符串;并且每个反馈串有N_r≥n_r个修复候选。给定(n_p,n_f,n_r)设置,然后从这个冻结数据集中对N_t次不同的子采样进行(带替换)。最后,本文计算了这N_t棵树上通过率和树大小的样本均值和标准差。

本文所有实验中,N_p=50,对于基线无修复方法中的n_p≤50,对于自修复方法中的n_p≤25。在所有设置使用1000次子采样。

结果显示,只有GPT-4可以有效地利用自我纠正功能来提高其编码性能,而GPT-3.5则无法实现这一点。此外,当使用更强的人类参与者作为调试工具时,成功率进一步提升。这项研究还发现,即使是最强大的AI,如GPT-4,其识别出错代码能力也远不及人类开发者的准确性。

因此,我们可以问,如果我们真的相信人工智能能取代人类开发者,那么为什么我们还需要那么多的人才呢?答案可能是,因为即便是现在最先进的人工智能,它们依然无法完全理解或模拟人类开发者的思维模式。而且,由于缺乏深层次的情感联系,以及缺少真实世界经验,因此人工智能很难真正理解用户需求,不仅如此,它们甚至不能像人类那样快速学习新技术。

因此,在未来几年里,我们可能会看到更多关于如何改善AI性能,以至于它们能够更接近但不完全达到人的水平。但直到那时,人力资源管理者必须继续寻找新的方法来吸引、保留并发展他们公司里的顶尖人才——那些拥有创造力、解决问题能力以及持续适应变化的心理特质的人才。

总而言之,这些最新研究成果提醒我们,无论技术如何进步,最宝贵的是那些拥有独特见解与创新精神的人类灵魂。在科技生活的手抄报内容里,这是一个关于人与机器协同效应的问题,也是一场探索未来的哲学讨论。不知您认为呢?

猜你喜欢