01. MinerU最新版特点
重构文档处理模块:提升排版适应性与识别精度
• 重构排序模块代码,使用 layoutreader 进行阅读顺序排序,确保在各种排版下都能实现极高准确率;
• 重构段落拼接模块,在跨栏、跨页、跨图、跨表情况下均能实现良好的段落拼接效果;
• 重构列表和目录识别功能,极大提升列表块和目录块识别的准确率及对应文本段落的解析效果;
• 重构图、表与描述性文本的匹配逻辑,大幅提升图注和脚注与图表的匹配准确率,并将描述性文本的丢失率降至接近0;
模型能力全面升级:多语言、布局、公式、表格解析效率倍增
• 增加 OCR 的多语言支持,支持繁/简中文在内的全球 84 种语言的检测与识别,OCR 语言支持列表清单:https://paddlepaddle.github.io/PaddleOCR/latest/ppocr/blog/multi_languages.html#5
• 集成最新 PDF-Extract-Kit 1.0 版本,文档布局检测、公式识别、表格识别准确度、速度更上一层楼。PDF-Extract-Kit 1.0模型包括:
- 加入自研的 doclayout_yolo 模型,在相近解析效果情况下比原方案提速10倍以上,可通过配置文件与 layoutlmv3 自由切换;
- 公式解析升级至 unimernet 0.2.1 ,在提升公式解析准确率的同时,大幅降低显存需求;
- 正式接入 StructTable-InternVL2-1B 表格模型,支持HTML输出格式;可通过配置文件与 tablemaster 自由切换;
(doclayout_yolo布局检测模型效果示意)
显存优化,降低资源需求,大力提升处理速度
• 优化配置文件的功能开关,除已有的表格检测开关外,MinerU 0.9.2版本新增了独立的公式检测开关,无需公式检测时可大幅提升速度和解析效果;
• 增加显存回收逻辑及其他显存优化措施,大幅降低显存使用需求。开启除表格加速外的全部加速功能(layout/公式/OCR)的显存需求从16GB降至8GB,开启全部加速功能的显存需求从24GB降至10GB;
02.Demo使用体验升级,API开放内测申请
支持多种文档格式,可解析在线PDF
MinerU 线上Demo新增支持 docdocxpptpptx 4种格式文档提取;支持输入PDF文件url链接自动解析(url需要以.pdf结尾);此外,文件可以批量上传,在文件列表统一管理所有任务,查看、筛选、删除提取记录更方便。
MinerU Demo 地址:https://opendatalab.com/OpenSourceTools/Extractor/PDF
划重点!!!大家呼声很高的MinerU API初版已推出,正在小范围体验和试用,有需要的朋友可添加小助手报名,获取密钥口令。
03.“探索者”开发激励计划
OpenDataLab社区卧虎藏龙,很多小伙伴凭借高超的代码、算法能力,轻松“玩”转 MinerU 项目,并且衍生出了不少有意思的应用。
为了感谢大家的支持,激励更多伙伴参与共建热门开源项目——MinerU,同时给予贡献者正式荣誉认证,我们启动了“探索者”开发激励计划,完成以下任一项内容,即可以获得奖励:
• 发布MinerU 原创技术文档或视频 1个以上
• 提交高质量Github pr 并成功合入3次以上
• 创作MinerU 衍生项目或应用 1个以上
探索者奖励包括但不限于:
• 价值300元的阿北精美周边大礼包
• 认证证书
• 顶级项目支持(算力、宣传等资源)
• 技术直播讲师邀约
同时会评选出 3 位年度最有实力的贡献者,提供岗位招聘、学术合作、项目赞助等绝对超值的专享权益。
快点击下方链接提交你的成果吧:
https://aicarrier.feishu.cn/share/base/form/shrcneaKr8tecz3agwNa90Xqh0g
上海市徐汇区龙文路129号
国际传媒港L1楼
联系我们
comm@pjlab.org.cn
Copyright © 2025 Shanghai Artificial Intelligence Laboratory
沪ICP备2021009351号-1