PDF 转 Markdown 这事,终于有人做得像样了。
推荐一个开源项目:OpenDataLoader PDF。
它不是普通的 PDF 阅读器,也不是那种把 PDF 文字粗暴复制出来的工具,而是专门为 AI / RAG 场景做的 PDF 解析器。
这对做知识库、文档问答、论文解析、合同分析、企业资料入库的人太实用了。
最核心的能力是:把 PDF 直接解析成 AI 能吃的 Markdown、JSON 和 HTML。
复杂表格、多栏排版、OCR、坐标框、阅读顺序这些老大难问题,它都考虑到了。官方还提到,它在 benchmark 里整体得分 0.907,主打本地确定性解析 + AI 混合模式,复杂页面可以交给 AI 增强处理。
https://t.co/ftM4rvbdG3