国内AI大模型为何沉迷于“刷榜”一言不合就跑分

“不服跑个分”这句话,对于关注手机圈的朋友来说一定不会陌生。就像手机性能的衡量需要依靠跑分软件一样,AI大模型也需要评测榜单来评估其性能。随着AI技术的不断发展,越来越多的AI大模型出现在人们的视野中,而这些模型也像手机厂商一样,不断地在各种评测榜单上刷分、争第一。国内AI大模型为何沉迷于“刷榜”一言不合就跑分

然而,与手机厂商不同的是,AI大模型的评测榜单并不是一个简单的细分市场,而是一个综合性的考试评测集。这些榜单的评估标准是统一的,包括MMLU、Big-Bench、AGIEval等,这些标准可以衡量大模型的多任务语言理解能力、应对人类级任务的能力等方面。

目前被国内厂商经常引用的评测榜单包括SuperCLUE、CMMLU和C-Eval等。其中,CMMLU和C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,而SuperCLUE则是由一群各大高校的AI专业人士制定出来的。

既然AI大模型的评测标准是可量化的,为什么会出现反直觉的结果呢?其实,目前AI大模型的跑分之所以会出现“群魔乱舞”的景象,主要是因为目前的评价方法存在局限性。这些评测榜单都是以做题的方式来衡量大模型的能力,而这种方式自然就会有题库。由于题库是有限的,因此部分大模型就会将题库中的题目加入训练集,通过微调来提高自己在榜单上的分数。国内AI大模型为何沉迷于“刷榜”一言不合就跑分

此外,还有一个问题是目前的大模型评测榜单存在“基准泄露”的情况。这意味着在考试前机缘巧合看到了试卷和标准答案,然后突击背题的结果就是考试成绩会大幅度提高。因此,将大模型榜单预设的题库加入训练集,大模型也就变成了拟合基准数据的模型。而目前的LLM本身就以出色的记忆力著称,背标准答案简直就是小菜一碟。国内AI大模型为何沉迷于“刷榜”一言不合就跑分

通过这种方式,小尺寸模型在跑分中也能拥有比大尺寸模型更好的结果。部分大模型取得的高分就是在这样的“微调”下实现的。人大高瓴团队在论文《Don't Make Your LLM an Evaluation Benchmark Cheater》中直白地指明了这种现象,而且这种投机取巧的做法对于大模型的性能反而是有害的。国内AI大模型为何沉迷于“刷榜”一言不合就跑分

高瓴团队的研究人员发现,基准泄漏会导致大模型跑出夸张的成绩,例如1.3B的模型可以在某些任务上超越10倍体量的模型。但副作用就是这些专门为“应试”设计的大模型,在其他正常测试任务上的表现会受到不利影响。毕竟想想也能知道,AI大模型本来应该是“做题家”、却变成了“背题家”,为了获得某榜单的高分,去使用该榜单特定的知识和输出样式,肯定就会误导大模型。国内AI大模型为何沉迷于“刷榜”一言不合就跑分

虽然目前的跑分方式存在一定的问题,但不可否认的是,AI大模型的评测榜单对于衡量其性能仍然具有一定的参考价值。但是,我们需要更加客观地看待这些榜单的结果,不能单纯以分数作为衡量大模型的唯一标准。同时,我们也需要更加关注大模型的实用性和可靠性,尤其是在实际应用中是否能够真正地发挥出其优势。

ai工具箱
ai导航
免费aigc导航
aigc工具
免费ai工具

© 版权声明

相关文章