COLLECTION NUMERIQUE
  Page d'accueil
    Fiches de lecture
    Grilles d'analyse
    Bibliographie classée et commentée
  A propos
  Archives
  Contacts

   Anaïs
   Anne
   Anne-Solène
   Antoine
   Dorothée
   Elisabeth
   Evelyne
   Florent
   Fabien
   Gaëlle
   Jessica
   Joël
   Julie
   Sophie

http://20six.fr/cecile13

Hébergé par 20six.fr



Fiches de lecture

Compression et accessibilité aux images de documents numérisés. Application au projet DEBORA

Notice Bibliographique :
LE BOURGEOIS Frank, EMPTOZ Hubert, TRINH Eric. Compression et accessibilité aux images de documents numérisés. Application au projet DEBORA. Laboratoire d'InfoRmatique en Images et Systèmes d'information. UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon.

id=1145> (consulté le 29 décembre 2005)


Auteurs :

LE BOURGEOIS Frank : est maître de conférences à l’INSA de Lyon. Ses travaux sont orientés sur l’analyse du document et l’indexation des images et des vidéos.

EMPTOZ Hubert : est professeur des Universités à l’INSA de Lyon. Il fait des études dans la numérisation des collections.

TRINH Eric : est doctorant à l’INSA de Lyon. Il travaille dans le secteur des images et des vidéos dans la segmentation et l’extraction d’information.


Sujet : la compression des documents numérisés à travers le projet DEBORA.


Mots clés : Bibliothèque numérique, compression d’images de documents, analyse d’images, segmentation, format de données, métadonnées.


Définitions :

Compression : Traitement des données numériques qui réduit leur volume et leur permet d'occuper moins de place. La décompression est ensuite effectuée grâce aux formules inverses. Ces techniques ont tant progressé que l'on peut à présent compresser des données, et les restituer sans perte de qualité, dans un rapport de 1 à 20 (exemple : logiciel Winzip). (source : http://www.entreprises.banque-kolb.fr/aide/lexique.asp)

Laboratoire d'InfoRmatique en Images et Systèmes d'information : Le LIRIS est né début 2003 à la suite du regroupement de plusieurs laboratoires de recherche lyonnais et d'individualités du domaine des Sciences et Techniques de l'Information et de la Communication. Il est associé au CNRS avec le label UMR 5205. Il a deux thèmes principaux de recherche : l'image numérique et les systèmes d'information.

Architecture client/serveur : Réseau sur lequel la capacité de traitement est distribué entre plusieurs PC individuels (clients) et un ordinateur central plus puissant (serveur). (source : www.e-logisticien.com/glossaire.html)


Résumé informatif :

    Le projet européen DEBORA (Digital AccEss to BOoks of the RenAissance) a pour mission de construire un ensemble d’outil permettant la consultation à distance des livres numérisés du XVIème siècle. Cet article est le résultat de diverses réflexions concernant les attentes des utilisateurs en matière d’accessibilité aux documents numérisés. C’est pourquoi ce sont les problèmes de compression d’images, d’extraction automatique des données et du format d’échange des données qui ont été principalement soulevés.

Généralement, les bibliothèques numériques utilisent le format JPEG pour comprimer leurs images. Cependant, ce type de format fait perdre de l’information à l’image qui n’est pas perceptible par l’œil humain mais qui peut poser problème lors du traitement automatique des données. Pour la compression des images de textes, il existe des méthodes de compression plus adaptées comme la compression des images binaires. Cette technique repose sur la segmentation de l’image du document, de la séparation image/texte et la qualité de la comparaison des formes. En ce qui concerne les images en niveaux de gris ou en couleurs, la méthode consiste à séparer l’arrière plan (fond) de l’avant plan (forme) et d’appliquer séparément une technique de compression. Le projet DEBORA propose d’analyser la structure du document et de les diviser en quatre secteurs : le plan textuel, le plan graphique, l’arrière plan et le plan compensatoire. Chaque partie sera ensuite compressée avec la méthode la plus adaptée. Cette technique a pour but d’extraire le plus d’information possible afin d’enrichir les métadonnées. La procédure utilisée pour la séparation de l’avant plan de l’arrière plan est une approche dites ascendantes (data-driven). La première étape consiste à analyser la position des zones de texte et des zones d’illustrations. Ensuite chaque zone, à partir de l’image originale, est traitée par un algorithme adapté. Cette méthode permet de prendre en compte les normes typographiques (les caractères, les mots, les lignes de textes, les paragraphes, les colonnes...).

La compression la plus ancienne est celle par redondance des formes appelé « Pattern Matching and Substitution » ou « token-based compression ». Elle est née dans les années 70 et a été développée par IBM. C’est la base de la compression avec perte car tous les caractères sont remplacés par la même image. Cette méthode pose trois problèmes : La comparaison des formes de caractères, la limitation de la taille du dictionnaire et le codage des résidus. La numérisation des formes de caractères est fixée en fonction de l’époque du document et de sa qualité de conservation. DEBORA a développé un taux de compression se situant entre le mode sans perte (lossless) et celui avec perte (lossy) du DjVu. Avec ce niveau de compression, il est possible de numériser une dizaine de livres par Cdrom alors que sans compression, plusieurs Cdroms étaient nécessaires pour stocker un seul livre.

L’extraction automatique des métadonnées pour DEBORA est issue de la structure physique et typographique des livres et de la transcription du texte assistée par ordinateur. L’étude de la structure physique des pages permet de définir les métadonnées sur la mise en page et sur les objets graphiques (les lettrines, les ornements et les illustrations). La reconnaissance optique de caractères ne peut s’effectuer sur les ouvrages du XVIème siècle à cause d’une mauvaise conservation ou d’une typographie trop ancienne par rapport au dictionnaire des mots actuels. La transcription du texte consiste à saisir manuellement une fois les caractères anciens qui seront ensuite reconnus par l’ordinateur.

Aucuns des formats d’image, des formats d’édition ou des formats d’impression, ne conviennent actuellement pour une gestion complète d’une collection de documents numérisés en terme à la fois d’image, de texte et de structures. C’est pourquoi les bibliothèques numériques ont été contraintes d’adopter des solutions techniques inadaptées aux développements des collections numériques. Le standard XML, apparaît comme une solution de recours pour le format d’échange de documents. Il est actuellement en cours de développement, c’est le projet METAe [fiche de lecture n°3]. DEBORA a développé une technique regroupant des propriétés des formats d’image et des formats de données hétérogènes comme le XML. Le format mis au point permettra à l’utilisateur de visualiser que la partie du document qu’il l’intéresse. Le format choisi est un format binaire, celui-ci est fortement compressé, il permet ainsi de conserver une description précises des métadonées et leurs liens. Les métadonnées d’une collection sont définies selon trois niveaux. Les métadonnées de niveau 1 regroupe la fiche documentaire, le niveau 2 détermine la structure logique de l’ouvrage, le niveau 3 indique le contenu et la structure physique et typographique et le niveau 4 concerne les annotations. Seules les métadonnées de niveau 3 sont extraites automatiquement par analyse d’image, les autres sont saisies manuellement.

Le format DEBORA permet à l’usager d’interroger les métadonnées de niveau 3 qui porte sur un mot dans la transcription, la localisation des lettrines, des ornements et des illustrations et la recherche d’une mise en page particulière. Les propriétés du format proposé sont optimales dans une architecture client/serveur pour une consultation distante des ouvrages. Afin de répondre aux demandes des usagers, un poste client de démonstration a été développé. Les usagers peuvent effectuer à la fois des requêtes textuelles et des requêtes par image.

Le format DEBORA permet une compression adaptée des documents par leurs images, leurs contenus et leurs metadonnées dans le but de favoriser leur accès par l’ensemble des utilisateurs. Cette compression intelligente prévoit, ensuite, de diffuser progressivement les données sur le réseau.


Commentaires

Cet article du Laboratoire d'InfoRmatique en Images et Systèmes d'information du CNRS expose de manière assez technique les méthodes de compression des documents numérisés à partir du projet DEBORA. Ce projet DEBORA a permis la mise au point d’une méthode de compression de texte très puissante qui limite la perte d’information ainsi que la réalisation d'une méthode de transcription pour les livres qui ne peuvent être traité par OCR. Cette méthode repose sur la détection de prototypes, par similarité de caractères.

Il m’a paru intéressant de l’étudier car il rend compte des enjeux de la compression et la mise à disposition des documents numérisés lors de la mise en place de collection numérique.

Bien que le contenu du texte soit assez spécialisé, les notions sont illustrées par des shémas ce qui facilité la compréhension de l'article. Il existe un site destiné au projet DEBORA : http://debora.enssib.fr

29.12.05 23:03


[première page] [page suivante]  [page précédente]




L'auteur du blog est responsable de tous ses contenus. Ouvrez votre blog sur 20six.fr ou myblog.de