webleads-tracker

La Reconnaissance Optique de Caractère n’aura plus de secret pour vous !

Encore peu connus jusqu’à récemment, car protégés par secret industriel, les systèmes de Reconnaissance Optique de Caractère (couramment appelés OCR) permettent la retranscription de textes « papier » (imprimés ou dactylographiés) en fichiers informatiques.

Pour obtenir une image numérique d’un document imprimé ou dactylographié, un scanner optique est indispensable (dans certains cas un appareil photo numérique fonctionne également). Ainsi, pour mener cette mission à son terme, tout outil concerné a besoin d’un logiciel spécifique appelé OCR, qui offre la possibilité de collecter « l’image » du texte des documents papier, pour les transformer en fichiers pouvant être exploités via un logiciel de traitement de texte, leur donnant la possibilité d’être modifiés informatiquement. Et permettant par la même occasion, de procéder à des recherches via mots clés dans n’importe quel texte. L’ensemble des procédés pré-cités sont désormais proposés par le Groupe Caille à ses clients.

Les étapes de ce procédé informatique peuvent être résumées ainsi :

  • Pré analyse : Le logiciel va détecter les contours de chaque élément que compose la page qui va être scannée. Si besoin est, le logiciel va également tenter d’améliorer la qualité de l’image (redresser ce qui doit l’être, corriger le contraste etc…)
  • Analyse de page: Phase permettant au logiciel de détecter les lignes de texte et les caractères à proprement parler. Dans certains cas, c’est à cette étape que les cadres, les images, et le texte souligné sont détectés.
  • Reconnaissance des caractères: Une fois les caractères « repérés » le logiciel va ensuite les assimiler à sa propre bibliothèque de formes et caractères et ainsi « proposer » les plus ressemblants qu’il connait.
  • Analyse d’éventuelles erreurs: L’OCR utilise les méthodes linguistiques et contextuelles pour réduire le nombre d’erreurs.
  • Génération du format de sortie: Avec, pour les meilleurs logiciels, une mise en page.

Domaine en perpétuelle évolution, et notamment depuis les années 1950, la reconnaissance de caractères est un sujet très technique. En effet, certains documents restent encore difficiles à manipuler, comme d’anciens documents religieux, ou divers registres, qui utilisent du français ancien, ou dont la qualité de papier ou d’encre aurait subit les effets néfastes du temps. Ainsi à l’heure actuelle, l’être humain reste utile : il est donc indispensable de s’adresser à un prestataire de confiance, comme le groupe Caille, pour la gestion de ce travail !

Pour suivre toute l’actualité du groupe, rejoignez-nous sur notre page facebook ​!

Retour aux actualités