Les pipelines OCR traditionnels enchainent au moins trois modeles : un detecteur de mise en page, un moteur de reconnaissance de texte, et un modele de langage pour la comprehension. Qianfan-OCR remplace les trois par un seul modele de 4B qui passe directement de l’image au Markdown.
L’innovation cle est le Layout-as-Thought : ajouter un token <think> a n’importe
quelle invite declenche une phase de raisonnement optionnelle ou le modele analyse
explicitement les boites englobantes, les types d’elements et l’ordre de lecture avant
de produire la sortie. C’est du Chain-of-Thought applique a la mise en page - et c’est
optionnel, donc on peut le desactiver pour les documents simples a colonne unique afin
de reduire la latence.
Le benchmark qui m’a marque : les pipelines OCR+LLM en deux etapes obtiennent 0.0 sur les benchmarks de raisonnement graphique CharXiv. Quand un pipeline abandonne la structure visuelle durant l’etape OCR, le LLM en aval n’a plus rien sur quoi raisonner. Les modeles bout-en-bout n’ont pas ce probleme.
Resultats : 1er sur OmniDocBench v1.5 (93.12, bout-en-bout), 1er sur OCRBench (880 global), 1er sur KIE (87.9, devancant Gemini-3.1-Pro et Qwen3-VL-235B). Tourne a 1.024 pages/sec sur un seul A100 avec quantification W8A8.