Qianfan-OCR de Baidu remplace le pipeline OCR multi-etapes par un seul modele de 4B avec Layout-as-Thought

Les pipelines OCR traditionnels enchainent au moins trois modeles : un detecteur de mise en page, un moteur de reconnaissance de texte, et un modele de langage pour la comprehension. Qianfan-OCR remplace les trois par un seul modele de 4B qui passe directement de l’image au Markdown.

L’innovation cle est le Layout-as-Thought : ajouter un token <think> a n’importe quelle invite declenche une phase de raisonnement optionnelle ou le modele analyse explicitement les boites englobantes, les types d’elements et l’ordre de lecture avant de produire la sortie. C’est du Chain-of-Thought applique a la mise en page - et c’est optionnel, donc on peut le desactiver pour les documents simples a colonne unique afin de reduire la latence.

Le benchmark qui m’a marque : les pipelines OCR+LLM en deux etapes obtiennent 0.0 sur les benchmarks de raisonnement graphique CharXiv. Quand un pipeline abandonne la structure visuelle durant l’etape OCR, le LLM en aval n’a plus rien sur quoi raisonner. Les modeles bout-en-bout n’ont pas ce probleme.

Resultats : 1er sur OmniDocBench v1.5 (93.12, bout-en-bout), 1er sur OCRBench (880 global), 1er sur KIE (87.9, devancant Gemini-3.1-Pro et Qwen3-VL-235B). Tourne a 1.024 pages/sec sur un seul A100 avec quantification W8A8.

Qianfan-OCR sur Hugging Face