Construction d'ontologies à partir de textes techniques - application aux systèmes documentaires

H. Assadi

LIP6 1998/048: THÈSE de DOCTORAT de l'UNIVERSITÉ PARIS 6 LIP6 / LIP6 research reports
286 pages - Octobre/October 1998 - French document.

PostScript : 3120 Ko /Kb

Contact : par mail / e-mail

Thème/Team: Apprentissage et Acquisition de Connaissances

Titre français : Construction d'ontologies à partir de textes techniques - application aux systèmes documentaires
Titre anglais : Ontology construction fron technical texts - application to documentary systems


Résumé : Notre thèse traite de la construction d'ontologies régionales, c'est à dire relatives à un domaine donné, à partir de textes techniques. Nous proposons un modèle de l'ontologie régionale documentée : il s'agit d'un réseau conceptuel décrivant un domaine bien déterminé, dans lequel les concepts sont reliés à des expressions linguistiques et au corpus à partir duquel ils ont été construits. Nous avons conçu une méthodologie et des outils pour la construction d'une ontologie régionale à partir d'une documentation technique, en adoptant des principes issus de la sémantique différentielle de F. Rastier.
Notre méthodologie, baptisée " analyse conceptuelle interactive " (ACI), donne une place centrale à la documentation technique et s'appuie sur les résultats d'outils informatiques d'analyse de textes. L'ACI comporte deux phases : une phase d'amorçage, l'analyse macroscopique, et une phase itérative de raffinement, l'analyse microscopique. L'ACI intègre efficacement la dimension humaine représentée par le binôme cogniticien - expert. Notre méthodologie est entièrement fondée sur le corpus, dans le sens où elle ne fait pas appel à des ressources conceptuelles externes.
Nous avons développé des outils de support pour l'ACI : (1) lexiclass, outil de classification automatique d'expressions linguistiques en fonction de leurs relations syntaxiques ; (2) les outils " d'induction de structures conceptuelles " qui s'appuient à la fois sur les résultats d'une analyse morpho-syntaxique et sur la version courante de l'ontologie pour proposer de nouvelles structures conceptuelles susceptibles d'enrichir cette ontologie.
La thèse s'est déroulée à la Direction des Etudes et Recherches d'EDF dans le cadre des travaux sur les " Systèmes de Consultation de Documentation Technique " (SCDT). Un SCDT se présente sous la forme d'un hypertexte offrant différents modes d'accès à la documentation technique relative à un domaine donné, dont deux index, l'un représentant les concepts du domaine et l'autre les tâches de l'utilisateur. La construction de ces index nécessite, au préalable, une phase d'ingénierie des connaissances. Notre méthodologie et nos outils ont été mis en oeuvre dans le cadre d'un projet de construction d'un SCDT dans le domaine de la planification des réseaux électriques.

Abstract : Our thesis deals with the problem of domain ontology acquisition from technical texts. We define the "annotated regional ontology": it consists of a conceptual network describing a particular domain. In this network, concepts are connected to linguistic expressions and to the corpus from which they were built. We propose a methodology and tools for the construction of regional ontologies from technical documentation. Our proposal is based on principles from the differential semantics theory of F. Rastier.
Our methodology, called "Interactive Conceptual Analysis" (ICA) puts the technical documentation in the core of the knowledge acquisition process, and it uses text analysis tools. The ICA takes place in two stages: a preliminary elicitation stage, called "macroscopic analysis" and an iterative refinement stage, called "microscopic analysis". The ICA takes efficiently into account the human factor, represented by the expert / knowledge engineer team. Our methodology is fully corpus-based, it doesn't need any external conceptual resource.
We developed support tools for the ICA: (1) lexiclass performs an automatic clustering of linguistic expressions in function of syntactic relations they hold in the text; (2) The tools of "conceptual structures generation" which use both the results of the preliminary morpho-syntactic analysis and the current version of the ontology to propose new candidate conceptual structures to be added to the ontology.
Our thesis took place at the Research and Development Division of Electricité de France, within a project dealing with "Technical Documentation Consultation Systems" (TDCS). A TDCS is presented as a hypertext allowing a context-based access to the technical documentation dealing with a given domain, via two structured indexes, one representing the domain and the other the tasks. A preliminary knowledge engineering process is needed to build conceptual models before the indexes. Our methodology and tools have been used within a project of TDCS building in the domain of electrical network planning.


Mots-clés : ingénierie des connaissances, traitement automatique des langues, représentation des connaissances, hypertexte, sémantique

Key-words : knowledge engineering, natural language processing, knowledge representation, hypertext, semantics


Publications internes LIP6 1998 / LIP6 research reports 1998

Responsable Éditorial / Editor
webmaster@lip6.fr