GPT-4能否自我进化MIT与微软代码实验揭示新秘密科技与未来绘画图片中又一奇迹
机器之心报道
编辑:赵阳
GPT-4的自我进化能力如何?MIT与微软的代码实验揭示了科技与未来绘画图片中的新秘密。
大型语言模型(LLM)已经证明能够生成代码,但在面对复杂编码挑战时仍遇到巨大困难。最近的研究尝试通过利用自我修复来提高模型编码性能。这一设计让系统克服解码过程中由离群样本引起的错误,并能轻松整合来自编译器、静态分析工具和执行引擎等符号系统的反馈,模仿人类软件工程师编写代码时的试错方式。
实验使用APP数据集评估了这一想法。在图3和图4中,我们可以看出,对于GPT-3.5模型,自我修复并不是一个有效策略,而对于GPT-4,有几个超参数值,其自我修复通过率明显优于基线。
更强大的反馈模型是否能提高模型修复性能是一个问题。实验结果如图5所示,显示使用单独更强的模型作为反馈源确实突破了性能障碍,这表明反馈阶段至关重要,改进它可以缓解GPT-3.5自我修复瓶颈。
最后,我们探讨了人类提供反馈对自我修复效果有多大的影响。结果表1总结,该研究发现当人类参与者代替GPT-4调试时,成功率增加超过157%。此外,该研究还分析了人类提供的反馈与GPT-4提供的一些差异,如自然语言比伪代码或显式Python更多,以及建议小变化可能性高于准确性。
这些发现为我们了解如何利用人工智能在软件开发中进行自动化提供了一些见解,同时也指出了人工智能在这方面还有很长的一段路要走。