Baidu系のオープンソース文書解析ツール「PaddleOCR」が、視覚言語モデル「PaddleOCR-VL-1.6」を公開した。文書解析の標準ベンチマーク「OmniDocBench v1.6」で96.3%という新記録を達成し、テキスト・数式・表の認識でオープンソース・商用問わず首位に立った。GitHubトレンドでも本日+141スターと急上昇している。

中核モデルは0.9B(約9億パラメータ)と軽量で109〜111言語に対応し、PDFや画像をLLM向けのMarkdown/JSON形式の構造化データに変換する。GitHubでは7万件以上の評価を集め、DifyRAGFlowなどRAG・AIエージェント構築のOSS基盤として採用されてきた。

バージョン3.6.0として2026年5月28日に公開され、前版1.5とモデル構造が完全互換のため差し替えるだけで移行できる。日本語の表・数式・図表まで扱えるため、社内文書のデータ化を低コストで進めたい企業の現実的な選択肢になる。一方で実装者からはGPU非搭載環境での実行難易度や他OCRとの精度比較といった導入実務の論点も並行して議論されている。