百度推出基于文心大模型的通用图像关键信息抽取工具PP-ChatOCR
近期,百度飞桨团队发布了一款名为PP-ChatOCR的通用图像关键信息抽取工具,其基于文心大模型进行开发。PP-ChatOCR采用了OCR文字识别和大模型技术相结合的方式,可以在各种场景下提取图像中的关键信息。
该工具的核心思想是通过利用大模型的泛化能力和规则化处理,将OCR识别结果传递给文心大模型进行信息提取。其技术框架包含了OCR推理、场景判别、Prompt构造和后处理等多个步骤。
百度强调,使用PP-ChatOCR可以快速构建通用的图像关键信息抽取系统,从而降低开发成本。对于个性化需求,可以根据业务场景进行优化,包括微调OCR模型和调整大模型输出。据称,PP-ChatOCR在多个场景中已取得了精度和稳定性方面的良好表现。
据了解,PP-ChatOCR已正式上线飞桨AI套件PaddleX,开发者可以利用PaddleX对PP-OCRv4进行训练微调。同时,PaddleX还支持PP-ChatOCR的高性能部署。
PaddleX支持10+种任务能力,包括图像分类、目标检测、图像分割、3D、OCR以及时序预测等。其内置了36种飞桨生态特色模型,包括PP-ChatOCR、PP-OCRv4、RP-DETR、PP-YOLOE、PP-ShiTu、PP-LiteSeg、PP-TS等。
有关PP-ChatOCR的使用体验,开发者可以在AI Studio应用中心进行尝试,链接如下:https://aistudio.baidu.com/aistudio/projectdetail/**886**
同时,PaddleX中也提供了PP-ChatOCR相关内容,详情请点击以下链接:https://aistudio.baidu.com/aistudio/modelsdetail?modelId=332
此外,PaddleOCR的GitHub页面也提供了更多有关PP-ChatOCR的信息,链接如下:https://github.com/PaddlePaddle/PaddleOCR