首个基于SSM-Transformer混合架构，开源商业大模型Jamba

ai导航-热门ai工具网友投稿2年前 (2024)发布热门ai平台网友投稿收录

近日，知名AI研究实验室AI21在官网宣布开源了其首个基于SSM-Transformer混合架构的商业大模型——Jamba。该模型通过在传统Transformer架构上融入结构化状态空间模型（SSM）技术，实现了性能的大幅提升。具体来说，Jamba结合了Transformer在处理序列数据方面的优势和SSM在计算效率上的长处，从而在吞吐量、上下文容纳能力等方面均展现出卓越性能。

据悉，Jamba的吞吐量是同类知名开源模型Mixtral 8x7B的3倍，同时它也是少数能在单个GPU上容纳高达140K上下文的模型之一。这意味着即使没有庞大的GPU集群支持，小企业和个人开发者也能借助Jamba开发出高性能、低消耗的生成式AI产品。

值得一提的是，Jamba所加入的SSM技术源于2023年12月由卡内基梅隆大学和普林斯顿大学联合发表的论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》。该论文提出了一种使用“选择性状态空间”进行序列推理的方法，该方法在处理离散型数据时具有更高的灵活性和效率。通过借鉴这种方法，Jamba能够在建模过程中根据用户输入的具体情况有选择性地过滤信息，从而更好地适应不同任务需求。

总的来说，Jamba作为一种新型的开源商业大模型，其基于SSM-Transformer混合架构的创新设计不仅提升了模型的整体性能，还为生成式AI领域带来了新的可能性。未来，我们期待看到更多基于这种架构的模型在各个领域发挥出色表现。

ai工具箱
 ai导航
免费aigc导航
 aigc工具
 免费ai工具