Databricks官网开源1320亿参数大模型DBRX:性能超越LLaMA2和Grok-1
3月28日,Databricks官网开源1320亿参数大模型DBRX:性能超越LLaMA2和Grok-1
近日,知名数据和AI平台Databricks在其官网上正式开源了一款名为DBRX的大型AI模型。该模型拥有惊人的1320亿参数,能够执行文本和代码生成、数学推理等多项任务,并提供基础和微调两种模型供用户选择。
根据DBRX在MMLU、HumanEval和GSM8K等测试集上公布的数据,其性能表现不仅超越了LLaMA2-70B和最近由马斯克开源的Grok-1模型,而且在推理效率上比LLaMA2-70B快2倍。值得一提的是,DBRX的总参数数量仅为Grok-1的三分之一,展现出了高性能和低算力消耗的特点。
用户可以通过以下链接访问DBRX的基础模型和微调模型,以及相关的GitHub仓库和在线demo:
基础模型:https://huggingface.co/databricks/dbrx-base微调模型:https://huggingface.co/databricks/dbrx-instructGitHub:https://github.com/databricks/dbrx在线demo:https://huggingface.co/spaces/databricks/dbrx-instruct
作为数据管理领域的领军企业,Databricks一直致力于抓住生成式AI的发展机遇。今年6月26日,该公司以13亿美元的天价收购了开源大模型平台MosaicML,进一步加强了其在AI领域的布局。MosaicML曾发布过一款名为MPT-7B的开源大语言模型,该模型具备可商业化、高性能和低算力消耗等优势,并在发布后迅速获得了广泛的关注和应用。
DBRX是基于Transformer的MoE(Mixture of Experts)架构构建的大型AI模型。与其他MoE类型的模型相比,DBRX采用了更多的小专家模型,并通过门控机制动态地选择最合适的专家来处理输入数据。这种设计使得DBRX能够更高效地利用计算资源,同时提高模型的性能和推理速度。
为了验证DBRX的性能,Databricks将其与多个知名的开源模型和商业模型进行了对比测试。结果显示,在MMLU、HellaSwag、WinoGrande和HumanEval等综合测试集上,DBRX的推理、数学解答、语言理解和代码生成等能力均超越了GPT-3.5,与谷歌的Gemini1.0Pro性能相当。
总的来说,DBRX的开源将为AI领域的发展注入新的活力,并推动大型AI模型的进一步研究和应用。同时,Databricks在AI领域的持续投入和创新也将为其带来更多的商业机会和发展空间。