AIGC爆发!亚马逊云科技构建多款实例降低成本-aigc导航|ai导航
在经历了60多年的发展之后,生成型人工智能(Generative人工智能)的出现。
《伊利亚克组曲》是莱杰伦·希勒与伦纳德·艾萨克逊于1957首次用电脑谱写出的一首弦乐四重唱作品。而到了2022年,人工智能才会进入工业化阶段。今年, Stability AI公司完成了1亿多元的投资,公司市值已逾10亿美金,并将亚马逊公司列为云计算平台的第一大客户,该公司推出了基于 Stable Diffusion的开放源码 AI模式,实现了基于文本信息的图像识别,实现了对图像的识别。因此, Stability人工智能是在生成型人工智能方面的首个“独角兽”。
Gartner预测,综合资讯在大公司组织的外部行销讯息中所占的比重,将会从2022年的不足2%增至30%。
亚马逊云公司在自动驾驶领域有着深厚的经验,他们为用户设计了一套完整的自动驾驶系统,并为用户设计出了一套高效、实用的智能驾驶系统,为游戏、电商、传媒、电影、广告等行业的用户们,创造出了一条高效、安全、高效的人工智能发展之路,为用户带来了巨大的便利。
“从人工智能技术的发展角度来说,生成型人工智能是一个模式转变的开始。大模型、多模态、高算力以及大数据等将引领着新一波的科学技术发展,给内容、营销以及游戏等产业的变革。”亚马逊云技术大中华区产品总监陈晓建说:“亚马逊云技术为用户提供了全方位的智能制造技术,为用户提供了高质量、高价格、全方位的智能制造技术,从而帮助千行百业,帮助大小公司迎接智能制造技术的发展潮流。”
亚马逊云科技认为,目前生成式AI模型主要集中在文本和图片生成,正在逐步渗透到音频和视频内容生成,未来将出现越来越多的跨模态/多模态内容生成。通用大模型更容易引发热议,但对企业而言,针对特定场景的模型在成本和准确度方面都更具优势,也是目前企业主要采用的模型。芯片性能和高质量训练既是生成式AI爆发的基础,也是其实现飞跃式发展的瓶颈。
之前模型的参数量级可能是千级或百万级,但今天拥有十亿百亿级参数的模型比比皆是,下一代模型有可能会朝着万亿级参数级别去发展。因此,降低大模型的成本至关重要。
虽然,机器学习的芯片差不多每两年或每几年就会有一倍或数倍的提升,但仍然不足以跟上训练模型复杂度的提升。替代的解决办法就是利用分布式多处理器,通过一个网络进行协同计算、协同训练。亚马逊云科技专门为云中高性能模型训练而搭建的Trn1实例最多可以搭载16颗专门用于机器学习训练的Trainium芯片,512GB加速器内存和800GBps的网络带宽。
Trn1是拥有高性价比的深度学习实例,与基于GPU的类似实例相比,训练成本降低了50%。以一个具备万亿级参数的大模型进行两周训练为例,GPU服务器P3dn需要600个实例,最新一代GPU实例P4d需要128个实例,但Trn1只需要用96个实例。
2022亚马逊云科技re:Invent全球大会推出了一款基于Trn1的网络优化型实例Trn1n,进一步把网络带宽增加一倍,从800GBps跃升到1600GBps,其强大的网络吞吐能力能够将超过1万个Trainium芯片构建在一个超大规模集群里,并在集群中进行模型的并行训练。
除训练外,大模型也需要超高的推理能力。所以亚马逊云科技构建了Inf1实例,用自研的推理芯片Inferentia提供支持,实现低延时低成本的推理。Inf1实例和GPU的实例相比,每次推理成本可以降低70%。