3一6年级科技小制作手工只有GPT-4才能自我改进而GPT-35不行MIT与微软的代码实验新发现让我

首页 > 综合资讯 > 3一6年级科技小制作手工只有GPT-4才能自我改进而GPT-35不行MIT与微软的代码实验新发现让我

3一6年级科技小制作手工只有GPT-4才能自我改进而GPT-35不行MIT与微软的代码实验新发现让我

栏目：综合资讯
标签：天文学综合新闻
更新时间： 2025年03月08日
摘要： 3一6年级科技小制作手工：MIT与微软的代码实验新发现，让我们反问：机器人能否像孩子们一样，通过创造和学习来不断进步？GPT-4有自我纠正生成代码的能力，但GPT-35不行。研究显示，大型语言模型（LLM）可以从自然语言中生成代码片段，但在复杂编码挑战中仍面临巨大挑战。最近的研究试图利用自修复提高模型编码性能。自修复指的是让模型反思并纠正自己代码中的错误。

3一6年级科技小制作手工只有GPT-4才能自我改进而GPT-35不行MIT与微软的代码实验新发现让我

3一6年级科技小制作手工：MIT与微软的代码实验新发现，让我们反问：机器人能否像孩子们一样，通过创造和学习来不断进步？GPT-4有自我纠正生成代码的能力，但GPT-35不行。研究显示，大型语言模型（LLM）可以从自然语言中生成代码片段，但在复杂编码挑战中仍面临巨大挑战。最近的研究试图利用自修复提高模型编码性能。自修复指的是让模型反思并纠正自己代码中的错误。

下图1展示了基于自修复方法的典型工作流程。首先，给定一个规范，从代码生成模型中对程序进行采样；然后在作为一部分规范提供的一套单元测试上执行程序；如果程序在任一单元测试中失败，则将错误消息和错误程序提供给一个反馈生成模型，该模型输出代码失败原因的简短解释；最后，反馈被传递给修复模型，该模型生成程序的最终固化版本。

实验绘制了pass@t这两个量的bootstrapped estimates。本文使用APPS数据集评估了这些关于Python编程挑战的问题。

自修复需要强大的模型和多样化初始样本

令MP=MF∈用于代码/修复生成和反馈生成的是同一个模式。

GPT-3.5结果见图3，GPT-4结果见图4。

从图中可以看出，对于GPT-3.5模式，本文提出的self-repair策略并不有效。而对于GPT-4，有几个n_p、n_fr值，其self-repair策略明显优于基线通过率。这表明仅凭强大的model GPT-4，即使没有人类参与，也能够实现比弱model GPT-3.5更好的self-repair效果。

此外，本文还分析了使用更强model为feedback所带来的影响，并且探讨了人类参与者与AI model之间在code debugging方面存在差异。此次研究揭示了尽管AI model无法完全替代人类，但是它们也具有极其重要的地位，在某些情况下甚至能够超越人类。在未来的技术发展趋势中，这可能会导致新的合作关系出现，其中AI model作为辅助工具，而人类则扮演设计者、监管者或决策者的角色。

3一6年级科技小制作手工只有GPT-4才能自我改进而GPT-35不行MIT与微软的代码实验新发现让我

3一6年级科技小制作手工只有GPT-4才能自我改进而GPT-35不行MIT与微软的代码实验新发现让我

猜你喜欢