大规模模型压缩技术应用于手机,iPhone升级计划或已经开始?
手机行业正迎来一股名为"端侧大模型"的浪潮。华为、高通等大型芯片企业正在积极研究将AI大模型应用于手机终端,以实现手机的新一代进化。
与过去的AI应用依赖云端服务器提供服务的方式相比,端侧大模型注重在本地实现智能化。其优势在于更好地保护用户的隐私,并使手机能够通过学习成为用户的个人智能助手,同时不需要担心云端服务器故障等问题。
然而,在目前的技术条件下,手机的性能远不能支持大模型的运行。业界主流的技术解决方案是通过剪枝、量化、蒸馏等方法来"瘦身"大模型,在尽可能减少精度损失的前提下,降低其所需资源和能耗。
高通已经开始研发用于端侧大模型的芯片,这表明手机终端的AI模型部署正在变得更加普及。
各手机厂商正在积极推动大模型应用于移动端的发展。AI大模型正从云端向智能终端迅速靠拢。
在2023年8月4日的华为开发者大会上,华为发布了HarmonyOS4。与前几代操作系统相比,最明显的变化之一是将AI大模型能力内置于系统底层。这标志着华为正在掀起AI模型走向"智能终端侧"的新篇章。
目前,人们使用ChatGPT、Midjourney等AI应用提供的服务基本上都是通过云端服务器来完成的。以ChatGPT为例,其背后的大模型和计算资源存储在远程服务器上。用户通过与服务器实时交互,将输入的文本经过服务器处理后得到返回响应。这种方式的优势在于能够确保模型的高效稳定运行,因为服务器通常配置了强大的计算资源,而且可以根据需要随时扩展以适应负载。
然而,现在出现了新的支持逻辑。华为正在尝试将大模型引入终端,这意味着所有这些工作都可以在本地完成,手机系统本身就具备了一定的AI能力,无需接入云端服务即可实现智能升级。华为常务董事、终端BG CEO余承东介绍说,HarmonyOS 4采用了华为盘古大模型提供底层支持,致力于带来智慧终端交互、高效生产力和个性化服务等全新的AI体验变革。
目前,HarmonyOS 4的AI能力主要由华为智慧助手“小艺”展现。通过引入盘古大模型,小艺在语音交互的基础上,还扩展了文字、图片、文档等多种形式的输入能力,并且在自然语言理解方面有所提升。此外,小艺可以根据指令连接各种服务和场景,比如自动提取图片文字、生成商业电子邮件内容或图像等。
而最重要的改变是,小艺具备了记忆和学习能力。随着不断的使用,它将逐渐了解主人的喜好并能够智能地提供出行、活动计划等方案,并根据用户习惯实现个性化推荐。华为透露,这些新的小艺能力将在8月下旬开放给公众进行测试。
将AI大模型内置于手机系统底层,华为的目标是全面提升手机的智能化程度。尽管小艺的功能并不复杂,但要实现这些功能,用户往往需要同时调用多个应用程序。而当手机本身具备了AI能力后,它就像一个更全面的助手,能够提供全方位的服务。
在发布HarmonyOS 4之前,华为已经尝试将AI大模型应用于移动终端。今年3月,华为发布了P60手机,该手机内置了智慧搜图功能,该功能基于多模态大模型技术,在手机端通过对模型进行小型化处理,实现了自然语言模型的运行。华为并不是第一家将AI模型引入端侧的公司。 在2023年世界人工智能大会上,高通展示了如何将大型AI模型Stable Diffusion部署在第二代骁龙8手机上进行推理,并在15秒内执行了20个推理步骤,生成了一张512x512像素的图像。与云端处理相比,图像效果差异并不明显。
同样在上海MWC 2023期间,荣耀的CEO赵明表示,荣耀将在智能手机端推动部署端侧大型AI模型,以实现多模态自然交互、精准意图识别和复杂任务等闭环服务体验。
另外一个备受关注的是苹果。一个月前,有消息爆出苹果正在秘密研发名为"OpenAI"的人工智能工具,该工具基于苹果自家研发的Ajax框架。尽管细节仍未公布,但业内普遍猜测,苹果可能会在系统层面引入大型模型,提升语音助手Siri的智能水平,以改善其目前被冠以"人工智障"称号的形象。
为什么手机厂商纷纷选择走"端侧"路线而不是使用云端处理?尽管华为的小艺在云端服务器上可以提供交互和生成能力,而且从成本和技术实现的角度来看,似乎也更经济和容易实现。
对于将AI大型模型集成到智能移动设备中,是炒作还是确有必要性?无论是余承东还是赵明,都强调了两个关键词:隐私安全和个性化。
余承东强调,华为主张在所有的AI体验创新和场景设计中,安全与隐私保护是首要原则,致力于构建更加负责任的AI,并承诺对由AI生成的内容进行标识。
相比于云端处理数据,智能终端侧的最大优势在于隐私安全。此前,一些公司在隐私保护方面频频出现问题。例如,某公司由于员工使用某款应用程序泄露了机密信息,在内部发布了禁令;另外一个公司和其股东因未经允许使用和泄露个人隐私数据而面临30亿美元的索赔。目前手机芯片的性能确实无法满足运行大型模型所需的算力要求。大型模型通常包含数十亿甚至千亿级别的参数,需要进行大规模的训练和推断计算,对芯片性能有着较高的要求。
然而,随着技术的发展和创新,手机芯片的性能不断提升,很可能会逐渐满足运行大型模型的需求。近年来,手机芯片厂商已经开始加大对AI加速器的研发力度,通过优化芯片结构和算法,在保证性能的同时降低功耗,提高芯片在运行大型模型时的效率。
此外,还可以使用更高效的模型压缩和部署技术,如剪枝、量化和分布式计算等,来减小模型的规模和计算量,从而适应当前手机芯片的限制。这些技术可以在保持模型精度的前提下,减少模型的大小和计算复杂度,提高模型在手机端的可运行性能。
因此,虽然当前手机芯片的性能不能完全满足大型模型在手机端的需求,但随着技术发展和创新的推动,相信未来手机芯片将更加强大,能够支持运行复杂的大型模型,进一步提升手机端AI助手的能力。对此,目前行业中较为主流的解决方案是"模型压缩"。
简而言之,模型压缩是在尽可能减少精度下,对已确定网络结构的模型进行优化,以降低其资源和能耗的需求。通常包含以下三个步骤:剪枝、量化和蒸馏。剪枝指的是裁剪掉对精度影响很小的参数;量化是使用更低精度的数据类型进行推理;蒸馏是从复杂模型中提取出简化但效果相似的模型。这些步骤的最终目标都是减小模型的体积。
另一方面,高通等芯片制造商也在研发专用芯片来部署AI大模型。例如,高通的5G移动平台骁龙8Gen2集成了AI专用Hexagon处理器,其采用了**的专用供电系统,并支持微切片推理、INT4精度和Transformer网络加速等功能。这种芯片能够在提供更高性能的同时,降低能耗和内存占用。
AI大模型的端侧部署正引领着新一代智能终端**的发展。国际数据公司(IDC)预测,在2026年之前,中国市场约有50%的终端设备将搭载AI引擎技术。这将带来人类科技生活的又一次巨大变革。