开源巨无霸Falcon 180B:绝世性能挑战商业模型,全球热议!
近日,阿布扎比的全球领先技术研究中心TII发布了一款世界顶级开源大模型Falcon180B。该模型在经过3.5万亿个token的训练后,拥有1800亿个参数,性能超过了之前的开源模型Llama2,并且接近了谷歌的 GPT-4。Falcon180B在多个自然语言处理基准测试中表现出色,被认为是目前最好的开源大模型之一。
Falcon180B的训练过程使用了亚马逊云机器学习平台,在4096个GPU上完成了训练,总计进行了约7,000,000个GPU计算时。训练数据主要来自于RefinedWe数据集,其中包括对话、技术论文和一小部分代码等多种数据。
Falcon180B在多个基准测试中都展现出色的表现,超越了Llama2和 GPT-3.5。在Hugging Face的开源大模型排行榜上,Falcon180B获得了更高的评分,超过了Llama2,成为当前评分最高的开放式大模型。
除了基础模型,研究人员还发布了聊天对话模型Falcon-180B-Chat,该模型在对话和指令数据集上进行了微调,可以进行实时对话的演示。
尽管Falcon180B的性能引起了广泛关注,但也有人对其质疑。英伟达高级科学家Jim Fan指出,Falcon-180B的训练数据中代码只占了5%,而代码是提高模型推理能力的重要数据,因此对于没有代码能力的模型来说,无法声称优于 GPT-3.5或接近 GPT-4。
总体来说,Falcon180B作为世界顶级开源大模型,具备强大的性能和参数规模,在各项任务中表现出色。然而,对于其在代码方面的不足,还需要进一步的探讨和研究。
© 版权声明
文章版权归作者所有,未经允许请勿转载。