标题:AI模型在生成干净代码方面仍有待提高,对API误用率高达62%
最近,科学家对四个大型语言模型在解决Java编码问题上的表现进行了评估。这些模型包括GPT-3.5、GPT-4、Llama2和Vicuna-1.5。他们使用1208个StackOverflow上的Java编码问题来测试模型,这些问题涉及24个常见的Java API。
评估结果显示,这四个模型的代码质量表现不尽如人意。在零样本测试中,GPT-3.5和GPT-4的API误用率分别高达49.83%和62.09%。虽然Llama2的误用率最低,但这是因为它生成的代码较少。在提供相关示例的一次样本测试中,误用率仍然普遍存在,如下:GPT-3.5(31.13%)、GPT-4(49.17%)、Llama2(47.02%)和Vicuna-1.5(27.32%)。
研究表明,大型语言模型在生成代码时只保证了语义上的正确性,而忽视了意外输入和高负载环境下的稳定可靠性要求。这意味着,虽然模型生成的代码数量增加,但代码质量和可靠性仍需改进。为了提高代码质量,语言模型需要更加注重工程质量,而不仅仅是追求生成更多代码。
© 版权声明
文章版权归作者所有,未经允许请勿转载。