Reconnaissance optique de caractères

La reconnaissance optique de caractères (ROC), en anglais optical character recognition (OCR), ou océrisation, désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte.

Un ordinateur réclame pour l'exécution de cette tâche un logiciel d'OCR. Celui-ci permet de récupérer le texte dans l'image d'un texte imprimé et de le sauvegarder dans un fichier pouvant être exploité dans un traitement de texte pour enrichissement, et stocké dans une base de données ou sur un autre support exploitable par un système informatique.

Histoire

La première machine d'OCR fut créée par Gustav Tauschek, un ingénieur allemand, en 1929. Elle contenait un détecteur photosensible qui pointait une lumière sur un mot lorsqu’il correspondait à un gabarit contenu dans sa mémoire.

En 1950, Frank Rowlett, qui avait cassé le code diplomatique japonais PURPLE, demanda à David Shepard, un cryptanalyste de l'AFSA (prédécesseur de la NSA américaine), de travailler avec Louis Tordella pour faire à l'agence des propositions de procédures d'automatisation des données. La question incluait le problème de la conversion de messages imprimés en langage machine pour le traitement informatique. Shepard décida qu'il devait être possible de construire une machine pour le faire, et, avec l'aide de Harvey Cook, un ami, construisit « Gismo » dans son grenier pendant ses soirées et ses week-ends. Le fait fut rapporté dans le Washington Daily News du 27 avril 1951 et dans le New York Times du 26 décembre 1953 après le dépôt du brevet numéro 2 663 758. Shepard fonda alors Intelligent Machines Research Corporation (IMR), qui livra les premiers systèmes d'OCR au monde exploités par des sociétés privées. Le premier système privé fut installé au Reader's Digest en 1955, et, de nombreuses années plus tard, fut offert par le Readers Digest au Smithsonian, où il fut mis en exposition. Les autres systèmes vendus par IMR à la fin des années 1950 comprenaient un lecteur de bordereau de facturation à l' Ohio Bell Telephone Company et un numériseur (scanner de documents) à l' US Air Force pour la lecture et la transmission par télex de messages dactylographiés. IBM et d'autres utilisèrent plus tard les brevets de Shepard.

Depuis 1965, la Poste des États-Unis utilise pour trier le courrier des machines OCR dont le principe de fonctionnement a été imaginé par Jacob Rabinow, un inventeur prolifique. La Poste canadienne utilise des systèmes OCR depuis 1971. Les systèmes OCR lisent le nom et l'adresse du destinataire au premier centre de tri automatisé, et impriment sur l'enveloppe un code-barres fondé sur le code postal. Les lettres n'ont plus qu'à être triées dans les centres suivants par des trieuses moins coûteuses qui n'ont qu'à lire le code-barres. Pour éviter toute interférence avec l'adresse lisible qui peut se trouver n'importe où sur la lettre, une encre spéciale est utilisée, qui est clairement visible sous une lumière UV. Cette encre semble orange dans des conditions d'éclairage normales.

Il fallut attendre 1974 pour qu’un scientifique rassemble ces nouvelles connaissances dans une technologie qui permettrait aux aveugles de lire des documents enregistrés sur un support informatique. On sort du domaine précis de la reconnaissance optique de caractère pour l’appliquer en utilisant de nouvelles technologies. Pour cela, ce scientifique, du nom de Ray Kurzweil, créa un synthétiseur vocal pour « dire » le texte et améliora les procédés de numérisation. En 1976, le prototype fut fini, et pour l’anecdote, c’est Stevie Wonder qui finança le projet. Le début de la commercialisation de la « reading machine » eut lieu en 1978. Deux ans plus tard, Xerox acheta la société.

Other Languages
čeština: OCR
Deutsch: Texterkennung
हिन्दी: ओसीआर
Հայերեն: OCR
Bahasa Indonesia: Pengenalan karakter optis
íslenska: Ljóslestur
ਪੰਜਾਬੀ: ਓਸੀਆਰ
polski: OCR
srpskohrvatski / српскохрватски: Optičko prepoznavanje znakova
తెలుగు: ఒసిఆర్(OCR)