GLM-OCR est un modèle multimodal OCR de 0.9B qui atteint 94.62 sur OmniDocBench V1.5, se classant premier malgré sa taille compacte. Développé par Zhipu AI, il bat Qwen3-VL-235B (260× plus de paramètres) et Gemini-3 Pro sur les benchmarks de parsing de documents.

Le modèle combine un encodeur visuel CogViT de 0.4B avec un décodeur GLM de 0.5B. Son innovation clé est la Prédiction Multi-Jeton (MTP), qui prédit 10 jetons par étape au lieu d’un seul. Pour l’OCR—une tâche déterministe—vous copiez des caractères, pas vous échantillonnez du texte créatif. Cela offre un débit environ 50% plus élevé que le décodage standard.

Le pipeline complet utilise PP-DocLayout-V3 pour la détection de mise en page, puis exécute un OCR parallèle sur différentes régions du document. Il atteint 1.86 pages/seconde pour les PDF et 0.67 images/seconde, fonctionnant avec seulement 1.5GB de VRAM.

Les options de déploiement incluent l’API Zhipu MaaS (pas de GPU nécessaire), self-hosted vLLM/SGLang, ou Ollama. Le SDK supporte la CLI (glmocr parse image.png), l’API Python, ou un service Flask.

GLM-OCR Technical Report | zai-org/GLM-OCR