LlamaIndex(run-llama)が、ローカル動作に特化したオープンソースのドキュメント解析ツール liteparse を公開し、GitHub Trendingで +680★/日 と急上昇している。PDFium による空間的テキスト抽出とバウンディングボックス出力に対応し、OCRには Tesseract を同梱、EasyOCR や PaddleOCR のHTTPサーバも接続できる。
Rust 製コアによりv2.0は前世代比で最大100倍高速とされ、同一コアから Python・Node.js/TypeScript・Rust・ブラウザ(WASM) まで呼び出せる。Linux・macOS(Intel/ARM)・Windowsに対応し、すべての処理がローカルで完結する。出力は JSON とテキスト、LLMエージェント向けの ページスクリーンショット生成 にも対応する。
LlamaIndexは従来クラウド型の LlamaParse を提供してきたが、liteparseはそのローカル向け軽量版で、複雑な文書はLlamaParseへ誘導する構成になっている。クラウドに送れない機密文書やエアギャップ環境でも解析・OCRができる点が、ローカルRAG構築の選択肢として実務ニーズに直結する。