谷歌推出「规模最大、能力最强」的人工智能模型 Gemini,以加速 AI 商业化的进程
谷歌推出最大规模人工智能模型Gemini,以迎合AI商业化的压力
谷歌在当地时间周三宣布推出其认为是迄今为止规模最大、能力最强的人工智能模型Gemini,以回应公司如何盈利化AI的迫切问题。
这个大型语言模型Gemini包括三种不同规模的套件:最大、最强大的Gemini Ultra;适用于广泛任务的Gemini Pro;以及专用于特定任务和移动设备的Gemini Nano。
目前,该公司计划通过谷歌云将Gemini授权给客户,供他们在自己的应用程序中使用。从12月13日起,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。安卓开发者也将能够使用Gemini Nano进行构建。Gemini还将用于驱动谷歌产品,如其Bard聊天机器人和尝试以对话式文本回答搜索查询的搜索生成体验(SGE),后者尚未广泛推出。
公司和企业可以使用Gemini进行更先进的客户服务互动,如聊天机器人和产品推荐,以及识别公司想要宣传产品的趋势。Gemini还可以用于内容创作,如果公司想要创建营销活动或博客内容,以及希望总结会议或为开发者生成代码的生产力应用程序。
该公司给出的例子包括让Gemini获取图表的截图,并分析数百页研究,然后更新该图表。另一个例子是分析一个人的数学家庭作业照片,并识别正确答案和指出错误答案。
Gemini Ultra是首个在MMLU(大规模多任务语言理解)上胜过人类专家的模型,MMLU使用57个科目的组合,如数学、物理、历史、法律、医学和伦理,测试世界知识和解决问题的能力。据该公司在周三的博客文章中表示,它能够理解复杂主题中的细微差别和推理。
「Gemini是谷歌团队间大规模合作努力的结果,包括我们在谷歌研究的同事,」皮查伊在周三的博客文章中写道。「它从头开始构建,是多模态的,这意味着它可以泛化,并无缝理解、操作和结合不同类型的信息,包括文本、代码、音频、图像和视频。」
从今天开始,谷歌的聊天机器人Bard将使用Gemini Pro来帮助进行高级推理、计划、理解和其他能力。明年初,它将推出使用Gemini Ultra的「Bard Advanced」,这将是Bard更新的最大一次,它类似于OpenAI的ChatGPT聊天机器人。
这次更新是在谷歌首次推出Bard和OpenAI在GPT-3.5上推出ChatGPT一年后进行的。今年3月,由Sam Altman领导的初创公司推出了GPT-4。高管们周二表示,Gemini Pro在性能上超过了GPT-3.5,但对于与GPT-4的比较避而不谈。
然而,据谷歌周三发布的一份白皮书显示,Gemini的Ultra模型在一些基准测试中超过了GPT-4。
当被问及谷歌是否计划对「Bard Advanced」的访问收费时,谷歌Bard的总经理Sissie Hsiao表示,公司专注于创造良好的体验,目前还没有任何盈利细节。
在新闻发布会上,当被问及Gemini与当前一代LLM相比是否有任何新颖功能时,谷歌DeepMind的产品副总裁Eli Collins回答说:「我怀疑它确实有」,但他们仍在努力了解Gemini Ultra的新颖功能。
据报道,谷歌推迟了Gemini的发布,因为它还没准备好,这让人回想起该公司年初推出其AI工具时的混乱局面。
多名记者询问了关于延迟的问题,对此Collins回答说,测试更先进的模型需要更长的时间。Collins表示,Gemini是该公司构建的经过最严格测试的AI模型,并且是谷歌任何模型中「最全面的安全评估」。
Collins说,尽管Gemini Ultra是其最大的模型,但提供服务的成本显著降低。他说:「它不仅能力更强,而且更高效。我们仍然需要大量计算来训练Gemini,但我们在训练这些模型方面变得更加高效。」
Collins表示,该公司将在周三发布一份关于该模型的技术白皮书,但他表示不会公布参数数量。今年早些时候,CNBC发现谷歌的PaLM 2大型语言模型,当时的最新AI模型,其训练用的文本数据量是前一代LLM的近五倍。
同样在周三,谷歌还推出了其下一代用于训练AI模型的张量处理单元。Salesforce和初创公司Lightricks已开始使用的TPU v5p芯片,其性能价格比优于2021年宣布的TPU v4,但谷歌没有提供与市场领导者Nvidia相比的性能信息。
这一芯片发布是在云计算竞争对手亚马逊和微软展示针对AI的定制芯片几周后进行的。