中文性能超过了顶流的 VLM GPT-4V，阿里 Qwen-VL 超大杯现在限时免费！看图就能秒写编程，还能一眼解决视觉难题

2,217 0 6

多模态大模型将成为AI的下一个突破点。最近，通义千问的VLM模型升级换代，其超大杯性能可与GPT-4V相媲美。更令人振奋的是，这款升级模型现在限时免费！

最近，通义千问在AI领域备受瞩目。

之前全民热议的“AI科目三”让“AI跳舞”成为网络热词。中文性能超过了顶流的 VLM GPT-4V，阿里 Qwen-VL 超大杯现在限时免费！看图就能秒写编程，还能一眼解决视觉难题

那款能让甄嬛、慈禧、马斯克、猫主子和兵马俑一起跳舞的AI技术，其实就源于通义千问APP。

那么，这款备受瞩目的国产视觉语言模型究竟有何过人之处？

近日，通义千问团队对多模态大模型进行了全新升级——推出了Qwen-VL的Plus与Max版本。

Qwen-VL是阿里在2023年8月推出的一款具备图文理解能力的大模型，基于通义千问语言模型开发。经过这次升级，Qwen-VL的视觉处理能力得到了显著提升，对于许多图片的理解已经接近人类水平。

而且，Qwen-VL现在支持更高分辨率的图片，可以处理各种极端长宽比的图片。

更令人兴奋的是，这款升级版的模型现在限时免费开放！你可以在通义千问官网和APP上体验，API调用也是免费的。

经过评测，Qwen-VL的升级版本在MMMU、MathVista等任务上远超业界所有开源模型，在文档分析（DocVQA）、中文图像相关（MM-Bench-CN）等任务上超越GPT-4V，达到了世界领先水平。

在第三方权威评测中，Qwen-VL经常与GPT-4V、Gemini一同占据业界前三的位置，与其他竞争者相比有着明显的优势。

那么这款强大的多模态大模型在实际应用中表现如何呢？

为了验证其实力，我们进行了一次实际测试。我们选择了一张十年前在雪乡拍摄的照片作为挑战。这张照片难度极高，因为它需要模型同时理解图像和文字信息。

令人惊喜的是，Qwen-VL-Max轻松识别出了照片中的内容，并给出了一段非常贴切的描述：

“这座房屋被厚厚的积雪覆盖，宛如童话中的小木屋。初升的太阳为雪地和房屋披上了一层温暖的色彩。远处的山峦和森林在晨光中若隐若现，整个场景显得宁静祥和。”

相比之下，GPT-4V在面对这个问题时则显得有些无力，因为它无法准确识别出照片中的地标。

文章版权归作者所有，未经允许请勿转载。

1,677 5

1,576 2

1,070 2

1,169 8

1,797 3

976 8

暂无评论

暂无评论...