Séminaire Donnees et APprentissage Artificiel
Les contenus spatio-visuels des documents à dominante texte
Thursday, April 15, 2010Claudie Faure (LTCI – Télécom-ParisTech)
Le traitement de l'inscription écrite des langues est au carrefour de plusieurs disciplines qui abordent la communication écrite du point de vue du texte, de l'écriture ou du document. Cet exposé sera introduit par les enjeux de l'analyse des documents à dominante textuelle en insistant sur les besoins qui émergent de l'évolution actuelle des modes de diffusion des connaissances et des informations. Les travaux présentés porteront sur l'analyse des images de documents historiques qui sont accessibles par millions sur les sites des bibliothèques numériques. Ils sont motivés par l'assistance à l'indexation et à la recherche d'information dans le patrimoine documentaire pour ce qui concerne leur application. Du point de vue méthodologique, le but est de construire des modèles de lecture pré-attentive, inspirés de la psychologie et de la sémiotique visuelle. Dans cette phase du processus de lecture, la structure du document est perçue par les lecteurs à partir d'informations spatio-visuelles (typographie et mise en page). Ils utilisent cette structure pour repérer les régions d'intérêt qui feront l'objet d'une lecture attentive. Si les informations qui contribuent à la structuration perceptive sont inspirées de la psychologie, le processus de traitement est défini indépendamment d'un modèle humain. C'est un processus ascendant de type incrémental où les confiances des décisions sont mises à jour par renforcement et inhibition. Les décisions finales sont obtenues après avoir éliminé les conflits engendrés par des décisions prises sur des informations de nature différentes ou portant sur différentes zones du document. Des résultats sur les groupements perceptifs seront présentés pour l'extraction des lignes de texte, préalable incontournable à la reconnaissance de l'écriture, et sur la détection des liens implicites pour les couples Figure-Légende.
More details here …
Thomas.Baerecke (at) nulllip6.fr