PDFから文章・表・画像を読み順と座標付きで抽出する無償OSSOpenDataLoader PDFがGitHub Trendingで1日あたり573スター増と急上昇している。Markdown/JSON/HTML形式で出力でき、200件の実在PDFでの評価で総合精度0.907、表の抽出精度0.928を1位と主張する。高速な確定的ローカル処理と、複雑なページだけをAIに回すハイブリッド方式を持ち、OCRを内蔵して80以上の言語と低品質スキャンに対応する。

注目の核は、AIへのデータ取り込み(RAG前処理)と、画面読み上げ対応のタグ付きPDF自動生成という2つの実需を、Apache 2.0の無償ライセンスで1つにまとめた点だ。Python・Node.js・Javaから使え、LangChain連携も備える。タグなしPDFのタグ付きPDFへの自動変換は無償だが、PDF/UA規格への完全変換と視覚編集は企業向け有償オプションで、Word/Excel/PowerPoint処理やGPU動作には非対応。

X上では表崩れ解決への好意的な反応が中心だが、「毎秒60ページ」「doclingより38倍速」という主張に対し、PyMuPDFとの実測比較で再検証する声もある。