retour Imprimer cette page
Tralogy - Les 3 et 4 mars 2011 -  Session 4 - Terminology and Lexicology / Terminologie et Lexicologie

http://webcast.in2p3.fr/videos-tresor_de_la_langue_francaise_informatise
Les recherches dans le Trésor de la langue française informatisé

Pascale Bernard


Texte intégral

Introduction

Le dictionnaire le Trésor de la langue française, dictionnaire de la langue du XIXe et du XXe siècle, (TLF), paru en 16 volumes, conçu pour un public averti de chercheurs et de spécialistes en langue est, de l’avis de tous les spécialistes, le plus grand et le plus complet des dictionnaires de langue française.

Comme la plupart des dictionnaires, le TLF présente sa nomenclature par ordre alphabétique, à l’exception des participes passés qui se trouvent immédiatement placés à la suite des verbes dont ils dépendent, ainsi le participe passé pris se trouve derrière le verbe prendre indépendamment de l’ordre alphabétique. L’ampleur de l’ouvrage, publié en plusieurs volumes, rend sa consultation parfois complexe du fait des renvois qui se font d’un volume à l’autre.

Sa version informatisée, Le Trésor de la langue française informatisée (TLFi), suite logique du TLF, permet, grâce à sa structure XML et à l’introduction de plus 3,6 millions de balises, de faire des recherches, des plus simples aux plus complexes.

Cette avancée technologique permet de pallier la difficulté matérielle de consultation des 16 volumes papier, car associé à un moteur de recherche puissant, le TLFi peut satisfaire les besoins de tous les linguistes aussi bien sémanticiens que styliciens qui peuvent exploiter toutes les possibilités offertes par le logiciel. La grande diversité des recherches possibles permet également une utilisation par des non spécialistes, rendant alors le dictionnaire accessible à tout public.

Présentation

Le Trésor de la langue française dont le premier volume a été publié en 1971 et le dernier en 1993 est le plus volumineux dictionnaire de langue française, il contient pas moins de 100 000 articles avec leur étymologie et leur histoire, comprenant 270 000 définitions et 430 000 citations référencées illustrant l’emploi du mot.

La version informatisée du dictionnaire (TLFi) contient les mêmes données que la version papier. Cela représente plus de 350 millions de caractères traités de manière informatisée avec à l’esprit l’objectif de répondre au mieux aux besoins de tout type d’utilisateur.

Grâce au développement, par Jacques Dendien, de plusieurs automates très sophistiqués, nous avons pu insérer dans le texte un ensemble complexe de balises XML, de telle sorte que chaque objet textuel contenu dans un article (définition, exemple, auteur d’exemple…) est clairement reconnu et que la hiérarchie qui structure chaque article est également identifiée par des balises spécifiques.

En parallèle au traitement informatisé des données, un logiciel d’interrogation baptisé Stella, véritable moteur de recherche dédié aux bases textuelles, a été mis au point. À ce jour, aucun logiciel n’égale les performances de Stella. L’ensemble du travail informatisé dont bénéficie le TLFi le positionne comme une base de données lexicale finement structurée et inégalable.

Stella : une boîte à outils pour l’exploitation du TLFi

Ainsi que d’autres ressources textuelles du laboratoire, notamment la base de textes FRANTEXT, et les 8e et 9e éditions du dictionnaire de l’Académie française, le TLFi exploite les fonctionnalités du logiciel Stella, développé au sein du laboratoire.

Le logiciel Stella se présente comme une boîte à outils (C++) comportant différents volets :

  • Des utilitaires divers incluant tris, traitement des expressions régulières, et surtout une base de données fondée sur la nomenclature du TLF permettant des opérations de flexion ou de lemmatisation. L’interface est très accessible avec de nombreuses aides en ligne.

  • Une interface Web permettant la mise en œuvre facile d’interfaces utilisateur, des fonctions de gestion de “ sessions utilisateur ” et de gestion d’espace de travail sur le serveur.

  • Une solution permettant une hypernavigation entre les différentes applications gérées par Stella, qu’elles résident ou non sur un même serveur.

  • Un temps de réponse optimal pour toutes les recherches, simples ou complexes.

Spécificités du TLFi

Les données

Son originalité est basée sur des spécificités liées à son contenu :

Tout d’abord, sa nomenclature comporte plus de 100 000 entrées (vedettes ou sous-vedettes). Le TLF a été un pionnier dans le traitement des morphèmes grammaticaux, on compte ainsi 62 mots traités sous la vedette –O, finale et finale par apocope (ex. apéro, proprio…).

  • Son originalité réside également dans la richesse de son grand nombre de citations, environ 430 000 dans les 16 volumes.

  • Sa liste d’objets métatextuels contenus dans les articles, tels les entrées, les définitions, les indicateurs de domaines, indicateurs sémantiques ou stylistiques, exemples avec leur sources, locutions, est exceptionnelle. C’est en tout une quarantaine d’objets métatextuels qui, considérés comme une valeur ajoutée, ont rendu cet outil linguistique extrêmement précieux pour la communauté scientifique.

  • La grande diversité des rubriques proposées (synchronie, étymologie et histoire, prononciation et orthographe, bibliographie) permet de satisfaire les requêtes des spécialistes aux compétences variées.

La structure

L’ensemble des 350 millions de caractères qui forment le dictionnaire ont été balisés en XML, ce qui signifie que des balises spéciales ont été injectées pour pouvoir délimiter et atteindre chaque type d’objet textuel. Ainsi, si la recherche plein texte sur la totalité du contenu du dictionnaire reste toujours permise, il est possible aussi d’éliminer le « bruit » inhérent à un type de requêtes. Il est en effet possible de restreindre cette recherche plein texte à une recherche plus « pointue » sur un type particulier d’objet textuel.

De plus, une seconde dimension a été introduite, le balisage de la hiérarchie, c’est-à-dire de la dépendance des objets entre eux. Les objets textuels ont été hiérarchisés à l’aide d’une série de balises spécifiques et d’une grammaire de contrôle.

De par le traitement hautement élaboré qui a permis de décomposer le texte du TLF en objets élémentaires (définitions, exemples, indicateurs de domaine technique, indicateurs sémantiques, grammaticaux, stylistiques, etc.) et d'analyser les relations hiérarchiques liant ces objets, il résulte des possibilités d'interrogation virtuellement illimitées.

Les différents niveaux de requête

Trois niveaux de requêtes et une possibilité de recherche par listes de mots, permettant des recherches par début, par radical ou par finale de mots, sont possibles selon les besoins des utilisateurs. L’accès aux possibilités les plus raffinées exigent la compréhension de quelques concepts.

Recherche simple

Ce niveau permet la consultation simple d’un article en apportant d’emblée des facilités de recherche grâce au correcteur d’erreurs.

Sur ce premier formulaire, appelé Recherche simple, trois possibilités pour accéder aux entrées du TLF sont offertes :

Le correcteur d’erreurs permet de chercher des mots dont on ne connaît pas l’orthographe exacte. En effet, la recherche d’un mot dans un dictionnaire suppose que le lecteur connaisse l’orthographe du mot recherché, mais parfois l’’utilisateur ne maîtrise pas l’orthographe française, ou il est brouillé avec les doubles consonnes ou les accents. Tant que la prononciation est respectée, il est possible de chercher en faisant des fautes diverses :

  • Avec omission d’une ou de plusieurs lettres et fautes variées : scultur, elefan, martir, crisantaime, ritme, ornitorink …

  • En plusieurs mots : pied d’estalle, crise en t’aime ….

  • En un mot pour trouver un mot composé : bozar …

  • Avec une forme fléchie : jenero, le logiciel trouvera la vedette général, danseron, il trouvera danser

Les listes déroulantes donnent à l’utilisateur un aperçu de la richesse de la nomenclature du TLF en lui permettant de découvrir des mots qu’il ne connaîtrait pas, comme s’il tournait les pages d’un dictionnaire papier. On n’y trouve que les mots en entrées principales, n’y figurent pas les mots traités sous les éléments formants, les remarques ou les dérivés. Si un mot ne s’y trouve pas, il ne faut pas en déduire qu’il est absent du TLF, on pourra sans doute le trouver avec les autres formulaires de recherche. Comme il s’avérait fastidieux de faire défiler les 100 000 mots de la nomenclature, nous avons réalisé environ 330 tranches de plus de 330 mots. Il suffit de sélectionner la tranche désirée pour afficher les mots contenus dans la tranche. Il ne reste plus qu’à cliquer sur le mot désiré.

La saisie phonétique permet de taper les mots phonétiquement. Des exemples de sons sont donnés par les infobulles, il ne s’agit pas de la phonétique API. Il suffit de sélectionner les touches sans rien taper : R I T M permet de retrouver rythme et contre-rythme.

Recherche assistée

Ce niveau d’interrogation fournit des possibilités étonnantes de consultation du dictionnaire par l’intermédiaire d’un formulaire de recherche sur lequel nous allons pouvoir faire 5 types de requêtes pouvant se combiner entre elles. Ce formulaire légitime au plus haut niveau la notion de bases de données qui rend possible le balayage des 16 volumes en un clic de souris.

Les recherches peuvent être monocritères ou multicritères. Les recherches monocritères peuvent concerner notamment les mots empruntés au norvégien, toutes les onomatopées, tous les mots du domaine de la mythologie etc. En spécifiant plusieurs critères, on peut extraire du dictionnaire tous les substantifs d’un domaine, tous les verbes qui ont un sens populaire et qui sont illustrés par un auteur particulier, etc.

Il est possible à ce niveau d’extraire du TLF des sous-ensembles de dictionnaires, par exemple chercher tous les animaux de la mythologie ou l’ensemble des mammifères rongeurs en combinant les critères de recherche.

L’utilisateur peut également chercher un mot oublié en croisant plusieurs critères pour retrouver comment se nomment les pierres projetées par les volcans, comment retrouver les adjectifs littéraires relatifs à l’hiver ou au printemps, ou pour retrouver l’auteur d’une citation si celle-ci est dans le TLF.

Par exemple, pour retrouver l’adjectif littéraire qui est relatif à l’hiver, il convient de sélectionner adjectif dans le menu déroulant du cadre 2, « le passage est consacré à une vedette ayant un code grammatical donné », puis littéraire dans le cadre 4 intitulé « Le passage est consacré à un indicateur d’emploi » et dans le cadre 5 de sélectionner dans le menu déroulant l’objet définition et de taper dans la case contenu hiver, on obtient alors le résultat correspondant à notre recherche, c’est-à-dire le mot hiémal qui signifie « qui appartient à l’hiver, qui se produit en hiver ».

Ce ne sont là que quelques exemples d’illustration puisés dans l’infini des possibilités.

Ce formulaire de recherche assistée permet également une recherche plein texte très utile pour retrouver un mot caché sous un autre mot. Par gain de place, nous avons parfois regroupé les mots d’une famille sous le mot de base, ainsi myxomatose se trouve en remarque sous le mot myxome. Cette pratique rend parfois difficile la recherche dans la version papier alors qu’elle est très facile dans la version informatisée.

Recherche complexe

Ce formulaire offre les possibilités maximales d’interrogation. Elles demandent la consultation d’une documentation présentant les différents objets rencontrés dans les articles du TLF et les concepts permettant d’effectuer les recherches les plus raffinées. A ce niveau, l’utilisateur peut combiner le type, les contenus et les relations entre les objets, tout comme précédemment dans la recherche assistée. Mais si dans la recherche assistée, le logiciel établissait les liens de dépendance entre les objets, dans la recherche complexe, l’utilisateur devra lui-même les définir. Ce niveau de recherche devient indispensable lorsque l’utilisateur veut travailler par listes de mots, ou imposer la place du mot recherché dans une définition par exemple, ou faire plusieurs requêtes sur un même objet (une définition qui contient tel mot et qui est illustré par un exemple d’un auteur particulier). Les requêtes peuvent être élémentaires sur un seul objet recherché, ou multi-objets.

Listes de mots

La possibilité de créer des listes de mots (manuelles, par flexion ou en utilisant une sélection d’expressions régulières très pointues) et de les réutiliser dans le formulaire de recherche complexe permet à l’utilisateur de faire des requêtes donnant des résultats très pertinents, tels créer la liste des outils qui se terminent en –oir, ou chercher les substantifs masculins qui se terminent en –ée.

L’hypernavigation

La mutualisation des données et l’hypernavigation sont au centre des intérêts des équipes scientifiques : le plus d’informations, le plus rapidement possible, le plus facilement possible. C’est pour répondre à ce besoin que l’hypernavigation a été rendue possible en établissant une liaison dynamique vers les bases gérées par le logiciel Stella. En cliquant, par exemple, sur n’importe quel mot contenu dans un article, l’utilisateur déclenche un menu déroulant proposant de rechercher le mot dans d’autres bases, il peut ainsi naviguer vers un autre article du TLFi, vers une base lexicale qui donne des informations sur la catégorie grammaticale du mot et sa flexion locale dans l’article, vers les dictionnaires de l’Académie française (4e édition [1762], 8e édition [1932-1935] et 9e édition [1994-en cours de rédaction]), vers une base historique de datations sur le vocabulaire français élaborée à Besançon du temps de l’INaLF (Institut National de la langue française) qui donne de nouvelles datations de mots et d’expressions, et enfin vers les textes du domaine public de la base textuelle FRANTEXT. L’utilisateur peut afficher d’autres exemples de cette base à partir de n’importe quel mot du TLFi. Historiquement, la base FRANTEXT est la base textuelle de laquelle proviennent la majorité des exemples du TLF.

Utilisation du TLFi

L’informatisation de ses données, son interface conviviale, les multiples aides en ligne et la puissance du logiciel Stella ont donné une nouvelle vie au TLF.

Toutes les possibilités de recherche, décrites précédemment, permettent à quiconque, spécialiste ou non de la langue, d’extraire toutes sortes d’informations de cette base textuelle.

Les recherches peuvent s’articuler autour de différents axes, études en vue de repérer des cooccurrences et collocations, extraction de sous-lexiques, études morphologiques, études de syntaxe locale, de sémantique de stylistiques, mais l’utilisateur peut aussi faire la recherche d’un mot dont il ne connaît pas exactement l’orthographe, retrouver un mot oublié mais dont il connaît le sens, etc.

Un autre atout consiste à mettre en évidence n’importe quel objet du TLF en le coloriant grâce au panneau d’affichage prévu à cet effet.

Son intérêt pour des recherches linguistiques est évident car c’est un formidable outil pour celui qui s’intéresse aux classes grammaticales (verbes, adjectifs, adverbes par exemple), aux classes syntaxiques (trouver les verbes qui se construisent avec la préposition de), aux classes stylistiques (les adverbes utilisés en argot), aux classes morphologiques (les mots commençant par tel préfixe ou se terminant par tel suffixe).

Conclusion

Le Trésor de la langue française, dictionnaire de la langue du XIXe et du XXe siècle, sa version informatisée et la plupart des bases financées par le CNRS, constituent un patrimoine important que nous faisons connaître et que nous diffusons en les rendant accessibles à tous. Conçu au départ, sous sa forme papier, pour un public averti de chercheurs et de spécialistes en langue, il est devenu, grâce à son informatisation et sa mise à la disposition de tous sur la toile, une ressource incontournable sur la langue française.

Bibliographie

CNRS (1971-1993), Le Trésor de la langue, dictionnaire de la langue du XIXe et du XXe siècle, 16 volumes, CNRS, Gallimard, Paris.

P. Bernard, C. Bernet, J . Dendien, J.M. Pierrel, G. Souvay, Z. Tucsnak, 2001. Un serveur de ressources informatisées via le Web. Actes de TALN-2001, Tours, juillet 2001, pages 333-338.

Bernard P., Dendien J, Lecomte J., Pierrel J.M. (2002) Un ensemble de ressources informatisées et intégrées pour l’étude du français : Frantext, TLFi, Dictionnaires de l’Académie et logiciel Stella, présentation et apprentissage de leurs applications, actes de TALN 2002, tome 2, Nancy, juin 2002, pages 3-36.

Bernard P., Dendien J, Lecomte J. (2002) La structuration du Trésor de la langue française électronique, actes de l’édition électronique en littérature et dictionnairique, Rouen 2002.

Bernard P., (2002) l’ATILF et ses ressources linguistiques informatisées, ZFSL (Zeitschrift für französische Sprache), Band 112, Heft 1.

P. Bernard, J . Dendien, J. Lecomte, J.M. Pierrel, 2002. Les ressources de l’ATILF pour l’analyse lexicale et textuelle : TLFi, Frantext et le logiciel Stella. Actes des 8e Journées Internationales d’Analyse Statistiques des Données Textuelles JADT 2002, Saint-Malo 2002, pages 137-149.

P. Bernard, J. Lecomte , J . Dendien, J.M. Pierrel, 2002. Computerized linguistic resources of the research laboratory ATILF for lexical and textual analysis : TLFi, Frantext and the software Stella. Actes de LREC-2002, Las Palmas (Canaries).

Bernard P., Dendien J., Pierrel J.M. (2004) A computerized Dictionary : Le Trésor de la langue française, Genève 2004.

Pour citer ce document

Pascale Bernard , «Les recherches dans le Trésor de la langue française informatisé», Tralogy [En ligne], Tralogy II, Session 4 - Terminology and Lexicology / Terminologie et Lexicologie, mis à jour le : 09/03/2016,URL : http://lodel.irevues.inist.fr/tralogy/index.php?id=224&format=print