Sujet : Le projet METAe, outil de structuration et description automatique des données électroniques.
Mot clé : Projet METAe, automatisation, OCR, reconnaissance de caractères, système intelligent.
Définitions
OCR : Optical Character Recognition. Reconnaissance optique de caractères. Procédé permettant de récupérer les symboles de textes. « Optique » serait avantageusement remplacé par « Automatique », car en général l'OCR concerne le traitement d'un document numérisé.
Résumé informatif
Suite à l’essor des bibliothèques numériques, quatorze bibliothèques du monde ont collaboré afin de mettre au point un outil favorisant la gestion des documents numériques. Lancé en 2000, le projet METAe développe de façon automatique, les fonctionnalités permettant la reconnaissance des caractères, la description des métadonnées ou la conversion en format d’échange XML. Les documents utilisés étaient principalement des livres et des périodiques imprimés au XIX et plus précisément comportant la police « Fraktur ».
Après chaque processus de numérisation, le moteur METAe reconstitue les métadonnées du document. Ces données reprennent les informations techniques, les droits d’accès, la nature du contenu, ainsi que la structure des documents. Ces renseignements sont stockés ensuite, dans une base de données interne.
Le moteur METAe a été conçu pour fonctionner sur une plateforme Windows et accessible aussi bien à partir d’une architecture client/serveur et d’une architecture poste à poste. Le projet METAe est basé sur un système intelligent qui reconnaît la grammaire des livres et des périodiques qui peut s’étendre à d’autres types de documents.
Le moteur METAe est de plus en plus utilisé dans diverses bibliothèques nationales de différents pays. En France, le projet METAe fait partir des outils pouvant être utilisés par Gallica.
En conclusion, le moteur METAe facilite la gestion des documents numérisés en terme d’ergonomie, de coût, d’automatisation, de reconnaissance et de conservation.