Numérisation

La numérisation est la conversion des informations d'un support (texte, image, audio, vidéo) ou d'un signal électrique en données numériques que des dispositifs informatiques ou d'électronique numérique pourront traiter[1]. Les données numériques se définissent comme une suite de caractères et de nombres qui représentent des informations[2]. On utilise parfois le terme franglais digitalisation (digit signifiant chiffre en anglais).

Principe

La numérisation construit une représentation discrète d'un objet, sous la forme d'une collection d'un nombre fini de signes pris dans un ensemble dénombrable de signes valides[3].

numérisation des textes :

La numérisation d'un texte est sa transformation en une suite de caractères prises dans une liste de caractères existant dans la langue écrite, comme une dictée transforme les sons de la parole en une suite de mots existant dans le dictionnaire de la langue écrite.

numérisation des images :

La numérisation d'une image la transforme en suite d'instructions permettant de la reconstituer. Ces instructions peuvent consister en un tableau des sensations visuelles pour chaque élément (pixels) ou avoir une organisation plus complexe (images comprimées, images vectorielles).

À moins que les données numériques ne soient produites directement par des humains (on parle alors de saisie de données), la numérisation comporte en général au moins trois phases :

  1. une phase d'échantillonnage où des dimensions de l'objet (par exemple, le temps, l'espace...) sont explorées à intervalles souvent réguliers ;
  2. une phase de quantification, où la valeur du signal représentant l'objet aux points d'échantillonnage est arrondie à une valeur prise dans un ensemble fini ;
  3. une phase d'encodage, qui fait correspondre à chacune de ces valeurs un code numérique (par exemple, binaire petit-boutien, code Gray, etc.).

À ces trois phases succèdent souvent des opérations plus complexes permettant un encodage plus efficace. C'est notamment le cas pour la numérisation des images dans les appareils photographiques numériques et pour la numérisation des textes (format Djvu, reconnaissance optique des caractères).

Le processus de numérisation peut quelquefois prendre d'autres formes.

numérisation de la température par un enregistreur de données (data logger) :

La température varie lentement dans le temps. La numérisation crée un journal de son évolution :

  • projection de la température dans un espace discret : elle est arrondie à une valeur prise dans un ensemble fini (par exemple chaque dixième de degré Celsius de -20 à +50) ;
  • projection du temps dans un espace discret : il est arrondi à une unité (par exemple, la minute) pour produire une date et heure ;

Chaque fois que l'arrondi de la température change, on enregistre la nouvelle température et la date et heure.

L'enregistreur de données effectue automatiquement ces opérations en convertissant d'abord les deux dimensions, la température et le temps, en signaux électriques. Il enregistre le résultat selon un code que d'autres dispositifs informatiques pourront exploiter.

Dans la plupart des cas, cependant, on utilise des échelons réguliers et on mesure une des grandeurs qui décrivent l'objet en incrémentant les autres. On obtient ainsi un nombre fini de données.

  • L'opération qui consiste à prélever une valeur pour chaque incrément d'une grandeur s'appelle l'échantillonnage :
    • dans l'échantillonnage spatial, on discrétise suivant une longueur, par exemple en prélevant une valeur de luminosité tous les dixièmes de millimètre, sur chaque axe spatial,
    • dans l'échantillonnage temporel, on va discrétiser le cours du temps, par exemple en prélevant une valeur à chaque microseconde ;
  • l'opération qui consiste à arrondir une valeur à une autre dans une liste finie s'appelle la quantification.

Le résultat de cette numérisation est une suite de valeurs représentant la grandeur mesurée suivant les axes choisis, dans un ordre conventionnel qui permet de reconstituer toutes les dimensions de chaque élément de l'objet.

Choix des paramètres

Pour que les données numérisées représentent fidèlement les grandeurs initiales, on doit toujours faire des hypothèses sur le signal à représenter.

Formats de données

Le principe même de la numérisation implique que l'utilisateur (généralement, une machine) connaisse les conventions qui permettent de reconstituer l'objet représenté. On appelle ces conventions le format des données. La numérisation d'une information comprend de façon indissociable

  1. un format, qui est un algorithme permettant de reconstruire l'objet (par exemple, une image à l'écran), invariable pour toute une classe d'objets ;
  2. des données, qui représentent ce qui fait la particularité d'un objet.

L'objet ne peut être reconstitué que si la machine informatique a en mémoire les deux composantes. Quand l'algorithme correspondant à un fichier ou à un flux de données manque à la machine, on ne peut utiliser les données et on parle de problème de compatibilité.

Les formats peuvent être très simples, comme dans le cas d'un flux brut de numérisation d'un signal à une seule dimension, où les échantillons se suivent sans discontinuer, et où il suffit de connaître leur taille, leur encodage numérique et la cadence d'échantillonnage pour reconstituer le signal, ou plus complexes, comme dans le cas de formats de description vectorielle des documents.

Des techniques de compression de données permettent de réduire la taille des fichiers ou le débit des flux. Dans ce cas, la partie invariable de l'information (le format) grandit et devient plus complexe. Quand le document représenté par ces fichiers ou flux est destiné à être distribué, on recherche un format tel que le décodage, qui est effectué à chaque poste, soit moins complexe que l'encodage, qui n'est effectué qu'une fois.

Procédés de numérisation

Les procédés de numérisation diffèrent selon la nature physique de l'information à numériser :

Pour numériser une grandeur qui varie dans le temps, comme un son :

  1. Un convertisseur analogique-numérique quantifie le signal à chaque impulsion d'horloge ;
  2. Un encodeur crée la liste de valeurs numériques qui représente le signal.

Pour numériser une image, on discrétise la hauteur et la largeur et on convertit, pour chaque point, les niveaux de lumière, soit globalement, soit pour chaque couleur primaire. L'échantillonnage de l'espace s'effectue de trois manières différentes :

  • un appareil photographique numérique utilise un transducteur à transfert de charge en forme de matrice à deux dimensions, avec un capteur par pixel. Le système transfère successivement les charges de chaque ligne, créant un signal électrique corrélé aux impulsions de transfert, et l'on peut ainsi quantifier le signal pour chaque élément capteur.
  • un scanner utilise généralement un transducteur à transfert de charge linéaire, dont les capteurs sont espacés d'une distance correspondant à la résolution transversale maximale. Le système transfère les charges de la ligne comme dans le cas précédent, puis il actionne un moteur qui fait avancer la ligne de la distance correspondant à la résolution souhaitée.
  • un scanner rotatif utilise un seul transducteur, qui avance lentement au-dessus de l'image montée sur un cylindre tournant. Le capteur, parcourant ainsi toute l'image, produit un signal électrique qui peut être converti en données numériques à chaque impulsion d'un signal corrélé à la rotation du cylindre.

Ces procédés valent pour la reproduction en noir et blanc. Pour la reproduction en couleurs, il faut des valeurs pour chacune des trois couleurs primaires. Soit on divise le faisceau lumineux de l'image en trois parties correspondant aux trois couleurs primaires, soit on intercale des filtres devant chaque capteur en alternant les couleurs, et on procède par interpolation, après la conversion numérique, pour évaluer la couleur à chaque pixel. En général, d'autres processus compensent ensuite les insuffisances de l'image brute.

La numérisation d'une image qui varie dans le temps associe les deux familles de procédés. Pour numériser une image animée (vidéo), une caméra numérique, un caméscope numérique, une webcam, échantillonnent le temps et numérisent une image à chaque fois (par exemple, avec une image toutes les 40 millisecondes). Le flux de données subit ensuite un processus de réduction de débit.

On peut aussi numériser un signal vidéo analogique, soit en produisant une conversion brute de ce signal électrique, soit en reconstituant tout ou partie de l'information de discrétisation du temps à partir des signaux de synchronisation verticale (trames) et de l'espace à partir des signaux de synchronisation horizontale (lignes).

Pour numériser un texte, soit un opérateur humain effectue la saisie du texte, soit on numérise le document comme une image en appliquant à ce premier ensemble de données un programme de reconnaissance optique de caractères éventuellement complété par des vérifications automatiques ou manuelles.

Objectifs de la numérisation

  • Les systèmes informatiques permettent :
    • d'emmagasiner de grandes quantités d'information sur des volumes de faibles dimensions : mémoire flash, disque dur, support optique, etc.
    • de dupliquer exactement et facilement les informations numériques et cela pour un moindre coût ;
    • de distribuer largement les informations grâce aux réseaux informatiques et notamment grâce à Internet ;
    • de créer des informations de synthèse, telles que les statistiques et les index, qui impliquent une grande quantité de calculs auxquels on n'envisagerait pas d'employer des humains.
  • La transmission de données numériques traitées pour obtenir une occupation maximale du spectre disponibles nécessite sur les canaux de transmission une bande passante moindre que leur contrepartie analogique.

En contrepartie, les informations négligées ou perdues au moment de la numérisation ou à l'occasion de calculs ou de recodage sont perdues pour les utilisateurs ultérieurs.

Other Languages
Afrikaans: Digitalisering
العربية: رقمنة
Ελληνικά: Ψηφιοποίηση
English: Digitization
فارسی: دیجیتایزر
Gaeilge: Digitiú
עברית: דיגיטציה
hrvatski: Digitalizacija
Bahasa Indonesia: Digitisasi
日本語: デジタイズ
한국어: 디지털화
Bahasa Melayu: Pendigitan
မြန်မာဘာသာ: ဒီဂျစ်တယ်စနစ်
Nederlands: Digitalisering
português: Digitalização
русский: Оцифровка
srpskohrvatski / српскохрватски: Digitalizacija
slovenščina: Digitalizacija
српски / srpski: Digitalizacija
Türkçe: Dijitalleşme
українська: Оцифровування
Tiếng Việt: Số hóa