收藏！36种场景分析多模态GPT-4Vision能力，LMM是什么？会全面替代大语言模型吗？-aigc导航|ai导航

ai导航-热门ai工具网友投稿2年前 (2024)更新热门ai平台网友投稿收录

LMM将会全面替代大语言模型？人工智能新里程碑GPT-V美国预先公测，医疗领域/OCR实践+166页GPT-V试用报告首发解读

收藏！36种场景分析多模态GPT-4Vision能力，LMM是什么？会全面替代大语言模型吗？

ChatGPT Vision，亦被广泛称为GPT-V或GPT-4V，代表了人工智能技术的新里程碑。作为LMM (Large Multimodal Model) 的代表，它不仅继承了LLM (Large Language Model) 的文本处理能力，还加入了图像处理的功能，实现了文本与图像的多模态交互。与传统的LLM相比，GPT-V更加强大和灵活，能够更深入地理解和生成与图像相关的内容。这种进化打开了无数新的应用可能性，从图像描述、创意设计到复杂的图文结合任务，GPT-4V都展现出了卓越的性能和广泛的潜力。

使用方法：GPT-V目前对于美国区ChatGPT Plus账户开放。

相关链接：ChatGPT can now see, hear, and speak

1.0 基础功能

多图片上下文识别能力
（图3：研究者输入了多张购物账单小票/菜单图片，GPT-4V做出了正确回答）

理解图中标识（如箭头）和强调（如红圈标红）
（图4：对于使用箭头/画圈标识的图片，GPT-4V能做出了正确理解和回答）

1.1 OCR功能（幻觉严重，中文效果差）

中文：电脑截图（准确）

中文：清晰中文表格图片（幻觉严重）

中文：有复杂信息的真实患者诊疗单（幻觉严重）
患者诊疗单（给GPT的是原图，以下图片经过二次处理模糊了患者信息）

英文：准确：强对比度、轻微镜头畸变、中等像素噪声图片

阿拉伯语：部分准确：手写体转译英文
muin on X: “GPT-4V will be able to transcribe and translate manuscripts and texts. I am excited to try out Arabic manuscripts to see how well it does. It does a phenomenal job with transcription even better than most humans. https://t.co/K6y6WffLvz” / X

1.2 医学诊断（高准确率）

肺部X光：肺炎判断（准确）
图像来源：GitHub – linhandev/dataset: 医学影像数据集列表『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia

图片输入

GPT-V判别结果：（肺炎, 0.7）
1.肺炎:
◦置信度: 0.7
◦原因: X光片上下肺区的密度增加可能提示肺炎的存在，但根据图片无法明确确定。
2.肺水肿:
◦置信度: 0.6
◦原因: 下肺区的密度增加可能与液体积聚有关，如心力衰竭导致的肺水肿。
3.间质性肺病:
◦置信度: 0.5
◦原因: 有一些间质改变的迹象，但需要与先前的影像进行比较。
4.支气管炎:
◦置信度: 0.4
◦原因: 慢性支气管炎可能导致一些观察到的不透明度。
5.结核病:
◦置信度: 0.3
◦原因: 尽管结核病可表现为不透明和可能的固实化，但该图像并不强烈地表现出结核病的典型特征。
6.肺癌:
◦置信度: 0.2
◦原因: 虽然没有明确的结节或肿块，但由于X光在显示其他结构后面的小结节时的局限性，肺癌不能完全排除。

皮肤病：黑色素瘤判断（部分准确）
数据源：ISIC Archive
https://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=[]

图片输入

GPT-V判别结果（常见痣 0.6，黑色素瘤 0.3）
黑色素细胞痣 (常见痣)
◦ 信心分数: 0.6
▪ 原因: 该皮损表现出与常见痣相似的特征，中央有深色区域。50岁左右的人群中很常见。
老年性角化病
◦ 信心分数: 0.4
▪ 原因: 老年性角化病是老年人中常见的非癌性皮肤生长，颜色可能会有所不同。
异型痣
◦ 信心分数: 0.5
▪ 原因: 这类痣与常见痣有所不同，通常较大。鉴于大小 (1.4mm) 和位置 (下肢)，需要考虑此诊断。
黑色素瘤
◦ 信心分数: 0.3
▪ 原因: 黑色素瘤是一种皮肤癌，虽然所提供的图像有可能与黑色素瘤一致的特征，但需要皮肤科医生进行全面评估才能确诊。
基底细胞癌
◦ 信心分数: 0.2
▪ 原因: 它是最常见的皮肤癌形式，但所提供的图像没有基底细胞癌的典型迹象。但鉴于患者的年龄，仍需考虑。
血管瘤
◦ 信心分数: 0.2
▪ 原因: 血管瘤是由血管组成的良性肿瘤。图像中的红色可能暗示这一点，但从整体外观看，可能性较小。

老年疣（0.7）
数据源：ISIC Archive

图片输入

GPT-V判别结果（老年疣 0.7）
老年疣 – 置信度：0.7黑色素痣 – 置信度：0.5基底细胞癌 – 置信度：0.4日光角化症 – 置信度：0.4鳞状细胞癌 – 置信度：0.3
该图像显示了皮肤的放大视图，老年疣在头部和颈部区域较为常见，且经常出现在中老年人群中，因此我给予了较高的置信度。

其他脑部/胸部X光诊断（高准确率）
（绿色代表正确，红色代表错误，黄色代表幻觉）

1.3 高纬度识别能力（高质量，虽有幻觉问题）

大众点评/小红书文案

商品使用建议（左），商品销售文案（右）

车祸车辆识别
红色代表错误

理解流程图

解释笑话

商品新颖命名

电路图描述

地标描述

菜谱生成

分析球类运动局势/运动员姿势（存在幻觉）
Abran Maldonado on X: “One of my favorite demos I tested out, in honor of football season, ChatGPT Vision will forever change coaching and sports analytics. Whether i build it or not, ChatGPT for coaching will be on every sideline in the league. Mark my words. https://t.co/uUYhsKpEGh” / X
幻觉（该运动员使用的是反手Backhand，而非正手forehand）：

识别电影/相机/景点等

给予用户产品安装/摄像等的建议和帮助
X: “ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm https://t.co/paG0hMshXb” / X

辅导扑克（存在幻觉）

网页截图到HTML代码（理解不足）
结果：

白板骨架到前端项目
Mckay Wrigley on X: “You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane. https://t.co/bGWT5bU8MK” / X
https://twitter.com/mckaywrigley/status/1707101465922453701

清晰图片的复杂理性/感性分析
Pietro Schirano on X: “This is absolutely wild. I am completely speechless. https://t.co/wGTAx1hFgS” / X
https://twitter.com/skirano/status/1706874309124194707?
Mckay Wrigley on X: “ChatGPT breaks down this diagram of a human cell for a 9th grader. This is the future of education. https://t.co/L0Za0ZB5rs” / X

主体多的复杂图片的复杂理性分析
Alex Northstar on X: “Thanks ChatGPT, that can read & understand better than humans! https://t.co/TgVSuHgf8j” / X
https://twitter.com/NorthstarBrain/status/1707668600281063514

1.4 不足与风险

图片（含人眼不可见文字）的注入风险
（图中，用户以不可见的浅色字添加了Sephora化妆品促销水印，人眼无法察觉，但GPT-V可感知）
（图中，用户以不可见的浅色字使GPT-4V一定对这份简历会给出雇佣建议）

不能使用于人脸识别
当 GPT-4 在2023年3月首次发布时，GPT-4V面部识别功能可能存在安全和隐私问题，因此 GPT-4V（具备视觉功能的 GPT-4）被暂缓发布。
在早期的模型中，用户本可以理论上上传人物照片，并要求识别他们，这显然是对隐私的侵犯。根据技术论文，GPT-4V（为 ChatGPT Vision 提供支持）现在拒绝此类请求的时间达到了98%。
GPT-4V(ision) technical work and authors
作者：京东健康李卓伦
来源：京东云开发者社区转载请注明来源
ai工具箱
ai导航
免费aigc导航
aigc工具
免费ai工具

文章版权归作者所有，未经允许请勿转载。

中国科学院国家天文台开源天文大模型 StarWhisper：解决天文领域数学推理和幻觉现象的新工具

热门ai平台网友投稿收录

3,798 6

央视315曝光AI伪造变脸变声诈骗

热门ai平台网友投稿收录

1,721 7

美国最高法院近日作出裁决，拒绝承认 AI 生成专利的合法性-aigc导航|ai导航

热门ai平台网友投稿收录

2,025 5

文娱圈被AI入侵，是奋起的“赛博难民”和“阵痛”的AIGC？-aigc导航|ai导航

热门ai平台网友投稿收录

1,714 3

AIGC技术及落地场景和应用场景-aigc导航|ai导航

热门ai平台网友投稿收录

2,017 10

公安部：成功打击79起侵犯公民个人信息的“AI换脸”犯罪案件

热门ai平台网友投稿收录

2,249 6

暂无评论

暂无评论...

收藏！36种场景分析多模态GPT-4Vision能力，LMM是什么？会全面替代大语言模型吗？-aigc导航|ai导航

1.0 基础功能

多图片上下文识别能力
（图3：研究者输入了多张购物账单小票/菜单图片，GPT-4V做出了正确回答）

理解图中标识（如箭头）和强调（如红圈标红）
（图4：对于使用箭头/画圈标识的图片，GPT-4V能做出了正确理解和回答）

1.1 OCR功能（幻觉严重，中文效果差）

中文：电脑截图（准确）

中文：清晰中文表格图片（幻觉严重）

中文：有复杂信息的真实患者诊疗单（幻觉严重）
患者诊疗单（给GPT的是原图，以下图片经过二次处理模糊了患者信息）

英文：准确：强对比度、轻微镜头畸变、中等像素噪声图片

1.2 医学诊断（高准确率）

肺部X光：肺炎判断（准确）
图像来源：GitHub – linhandev/dataset: 医学影像数据集列表『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia

图片输入

皮肤病：黑色素瘤判断（部分准确）
数据源：ISIC Archive
https://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=[]

图片输入

老年疣（0.7）
数据源：ISIC Archive

图片输入

其他脑部/胸部X光诊断（高准确率）
（绿色代表正确，红色代表错误，黄色代表幻觉）

1.3 高纬度识别能力（高质量，虽有幻觉问题）

大众点评/小红书文案

商品使用建议（左），商品销售文案（右）

车祸车辆识别
红色代表错误

理解流程图

解释笑话

商品新颖命名

电路图描述

地标描述

菜谱生成

识别电影/相机/景点等

辅导扑克（存在幻觉）

网页截图到HTML代码（理解不足）
结果：

白板骨架到前端项目
Mckay Wrigley on X: “You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane. https://t.co/bGWT5bU8MK” / X
https://twitter.com/mckaywrigley/status/1707101465922453701

主体多的复杂图片的复杂理性分析
Alex Northstar on X: “Thanks ChatGPT, that can read & understand better than humans! https://t.co/TgVSuHgf8j” / X
https://twitter.com/NorthstarBrain/status/1707668600281063514

1.4 不足与风险

图片（含人眼不可见文字）的注入风险
（图中，用户以不可见的浅色字添加了Sephora化妆品促销水印，人眼无法察觉，但GPT-V可感知）
（图中，用户以不可见的浅色字使GPT-4V一定对这份简历会给出雇佣建议）

视频+引擎？生成式AI专题报告：下一颗最闪亮的星！-aigc导航|ai导航

AIGC布局再进一步！美图3.0大模型主动权让用户掌握-aigc导航|ai导航

相关文章

暂无评论

热门标签

收藏！36种场景分析多模态GPT-4Vision能力，LMM是什么？会全面替代大语言模型吗？-aigc导航|ai导航

1.0 基础功能

多图片上下文识别能力（图3：研究者输入了多张购物账单小票/菜单图片，GPT-4V做出了正确回答）

理解图中标识（如箭头）和强调（如红圈标红）（图4：对于使用箭头/画圈标识的图片，GPT-4V能做出了正确理解和回答）

1.1 OCR功能（幻觉严重，中文效果差）

中文：电脑截图（准确）

中文：清晰中文表格图片（幻觉严重）

中文：有复杂信息的真实患者诊疗单（幻觉严重）患者诊疗单（给GPT的是原图，以下图片经过二次处理模糊了患者信息）

英文：准确：强对比度、轻微镜头畸变、中等像素噪声图片

1.2 医学诊断（高准确率）

肺部X光：肺炎判断（准确）图像来源：GitHub – linhandev/dataset: 医学影像数据集列表 『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia

图片输入

皮肤病：黑色素瘤判断（部分准确）数据源：ISIC Archivehttps://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=[]

图片输入

老年疣（0.7）数据源：ISIC Archive

图片输入

其他脑部/胸部X光诊断（高准确率）（绿色代表正确，红色代表错误，黄色代表幻觉）

1.3 高纬度识别能力（高质量，虽有幻觉问题）

大众点评/小红书文案

商品使用建议（左），商品销售文案（右）

车祸车辆识别红色代表错误

理解流程图

解释笑话

商品新颖命名

电路图描述

地标描述

菜谱生成

识别电影/相机/景点等

辅导扑克（存在幻觉）

网页截图到HTML代码（理解不足）结果：

白板骨架到前端项目Mckay Wrigley on X: “You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane. https://t.co/bGWT5bU8MK” / Xhttps://twitter.com/mckaywrigley/status/1707101465922453701

主体多的复杂图片的复杂理性分析Alex Northstar on X: “Thanks ChatGPT, that can read & understand better than humans! https://t.co/TgVSuHgf8j” / Xhttps://twitter.com/NorthstarBrain/status/1707668600281063514

1.4 不足与风险

图片（含人眼不可见文字）的注入风险（图中，用户以不可见的浅色字添加了Sephora化妆品促销水印，人眼无法察觉，但GPT-V可感知）（图中，用户以不可见的浅色字使GPT-4V一定对这份简历会给出雇佣建议）

视频+引擎？生成式AI专题报告：下一颗最闪亮的星！-aigc导航|ai导航

AIGC布局再进一步！美图3.0大模型主动权让用户掌握-aigc导航|ai导航

相关文章

暂无评论

热门标签

多图片上下文识别能力
（图3：研究者输入了多张购物账单小票/菜单图片，GPT-4V做出了正确回答）

理解图中标识（如箭头）和强调（如红圈标红）
（图4：对于使用箭头/画圈标识的图片，GPT-4V能做出了正确理解和回答）

中文：有复杂信息的真实患者诊疗单（幻觉严重）
患者诊疗单（给GPT的是原图，以下图片经过二次处理模糊了患者信息）

肺部X光：肺炎判断（准确）
图像来源：GitHub – linhandev/dataset: 医学影像数据集列表『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia

皮肤病：黑色素瘤判断（部分准确）
数据源：ISIC Archive
https://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=[]

老年疣（0.7）
数据源：ISIC Archive

其他脑部/胸部X光诊断（高准确率）
（绿色代表正确，红色代表错误，黄色代表幻觉）

车祸车辆识别
红色代表错误

网页截图到HTML代码（理解不足）
结果：

白板骨架到前端项目
Mckay Wrigley on X: “You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane. https://t.co/bGWT5bU8MK” / X
https://twitter.com/mckaywrigley/status/1707101465922453701

主体多的复杂图片的复杂理性分析
Alex Northstar on X: “Thanks ChatGPT, that can read & understand better than humans! https://t.co/TgVSuHgf8j” / X
https://twitter.com/NorthstarBrain/status/1707668600281063514

图片（含人眼不可见文字）的注入风险
（图中，用户以不可见的浅色字添加了Sephora化妆品促销水印，人眼无法察觉，但GPT-V可感知）
（图中，用户以不可见的浅色字使GPT-4V一定对这份简历会给出雇佣建议）