Intelligences Journal revue en intelligence économique
[English version]

Une nouvelle approche pour automatiser l'analyse de la dynamique de domaines de recherche

Jean-Charles Lamirel

Résumé

L'objectif de ce papier est de proposer une nouvelle approche basée sur l’apprentissage non supervisé afin de suivre l'évolution des thèmes de recherches pour une discipline scientifique donnée en termes d'émergences, de stabilités ou de déclins. De tels comportements sont discernables par diverses méthodes de filtrage, qui restent cependant pour la plupart tout à la fois semi-supervisées et peu discriminantes. Notre choix s’est donc porté sur l'exploitation des méthodes de clustering neuronales dans un contexte de multi-vues, de manière à instrumentaliser entièrement le processus d’analyse. Nous montrons, à travers l’analyse d’un corpus de référence européen relatif à la recherche en optoélectronique basé sur cette nouvelle approche, et par la comparaison avec les résultats obtenus avec les approches existantes, qu’elle est la seule à permettre de prendre efficacement en considération les aspects incrémentaux et chronologiques d’une source d’information, ouvrant ainsi la voie à la détection des convergences et des divergences des thèmes de recherches à une large échelle.

Texte intégral

Introduction

La littérature prenant en considération l'aspect chronologique dans les flux d'information est habituellement concentrée sur le "DataStream" dont l’idée principale est la gestion "au vol" (c.-à-d. sans stockage préalable) des données entrantes. Dans ce contexte, les données qui ont été considérées jusqu'à aujourd’hui sont principalement des données physiques ou des données d’usage du Web (connexion, navigation,…). Les applications sur des données textuelles (bases de données bibliographiques, dépêches en ligne,…) sont toujours balbutiantes. La recherche sur le "DataStream" a été lancée en 1996 par le DARPA à travers le projet TDT (Allan, 1998). Mais les algorithmes résultant de ce travail sont d’abord prévus pour traiter de très gros volumes de données (lié au concept de DataStream) et ne sont ainsi pas optimaux pour détecter des sujets émergents et pour évaluer avec précision l'évolution d’un domaine de recherche.

Les nombreuses méthodes de clustering utilisées dans ce cadre peuvent être rattachées à diverses familles, parmi lesquelles peut citer :

  • Les méthodes hiérarchiques, comme le clustering hiérarchique ascendant (Voorhees, 1986) ;

  • Les méthodes directes de la famille des K-means (MacQueen, 1967) ;

  • Les méthodes basées sur la densité (Ester, 1996) et les méthodes de partitionnement de graphes (Pons, 2006) ;

  • Méthodes de clustering neuronales (Kohonen, 1982).

La majorité de ces méthodes ont été au départ définies d'une manière non-incrémentale. Cependant, dans chacune de ces familles, des versions incrémentales permettant de prendre en considération la composante temporelle d'un flux de données (Gaber, 2005) ont été mises en place. Parmi ces méthodes, celles qui semblent les plus prometteuses sont les méthodes basées sur la densité et les méthodes neuronales (Cuxac, 2009).

Les méthodes de clustering neuronales partagent le principe de prendre en considération des relations de voisinage entre les clusters, qu’elles soient prédéfinies (topologie fixe), comme SOM (Kohonen, 1982), ou dynamique (topologie libre), comme les « gaz neuronaux » statiques (NG) (Martinetz, 1991), ou les « gaz neuronaux croissants » (GNG) (Fritske, 1995). Cette stratégie les rend moins sensibles aux conditions initiales, ce qui représente un avantage important dans le cadre de l'analyse de données dynamique. Des versions incrémentales de SOM ont également été proposées (Merkl, 2003). Néanmoins, les méthodes de clustering neuronales à topologie libre, telle que NG ou le GNG, ou leurs adaptations incrémentales récentes, comme IGNG (Prudent, 2005) ou I2GNG (Hamza, 2008), permettent de mieux s'adapter aux caractéristiques de chaque distribution des données, en particulier si celles-ci sont de nature évolutive.

Certains de nos travaux récents (Lamirel, 2006) ont montré que la plupart des algorithmes de clustering, et en particulier les adaptations incrémentales des algorithmes de clustering neuroraux, tels qu'IGNG, fournissent d’excellentes performances dans le contexte usuel de l'analyse des données textuelles homogènes. Cependant, ces travaux ont également clairement illustré la chute drastique de performance de ces algorithmes, ainsi que celle des algorithmes plus classiques comme K-means, quand un ensemble de données textuel hétérogène ou polythématique, qui peut être considéré comme simulation statique d'un ensemble de données évolutives, est utilisé en entrée. Même si de nouvelles méthodes dont le but est de faire face aux problèmes des méthodes existantes en employant des mesures de similarité alternatives à la distance euclidienne classique sont prometteuses, ces dernières demeurent toujours en cours de développement (Lamirel, 2010).

Pour faire face aux défauts des méthodes de clustering incrémentales existantes, une approche alternative pour analyser l'information évoluant avec le temps consiste à exploiter le principe de l’analyse diachronique. Ce type d'analyse est basé sur l'application d'une méthode de clustering sur des données liées à plusieurs périodes successives, et à l'étude de l'évolution entre les différentes périodes du contenu des clusters et de leur projection sur des cartes thématiques. Pour analyser l'évolution du vocabulaire décrivant les clusters de différentes périodes, Schiebel et al. (2010) proposent ainsi de construire une matrice de la comparaison de mots-clés qui est basée sur le pourcentage des mots-clés d'une période qui préexistent dans les clusters d'une autre période. Grâce à cette matrice, il est alors possible à un expert du domaine de mettre en évidence différents comportements de clusters : stabilité, mais également fusion ou division. Même si elle évite en partie d'exploiter les méthodes de clustering dans leur secteur critique, une limitation importante de cette approche est que le processus de la comparaison entre les modèles de clustering doit être réalisé d'une manière supervisée par un expert du domaine.

Thijs et al. (2010) ont proposé une solution alternative non supervisée. Elle exploite des documents-noyaux pour croiser des résultats de clustering issus de différentes périodes de temps. Les documents-noyaux sont définis comme étant ceux qui combinent un fort couplage bibliographique et des similitudes élevées de termes d'indexation avec d'autres documents (Glanzel, 2011). D'une telle manière, des clusters de deux périodes de temps sont considérés comme semblables s'ils partagent une quantité suffisante de références aux mêmes documents-noyaux. Les clusters sont eux-mêmes construits utilisant une approche basée sur le co-clustering en combinant les informations de contenu (mots-clés) et celles de référencement (couplage bibliographique). Cette approche présente l'avantage pour être relativement indépendante des changements de vocabulaire entre les périodes, mais elle rend nécessaire d’exploiter des données de référencement.

Lamirel et al. (1994) ont introduit pour la première fois la coopération dynamique et non supervisée entre les modèles de clustering dans le cadre de la recherche documentaire. Cette nouvelle approche a été à l'origine employée pour analyser la pertinence des requêtes des utilisateurs vis à vis des contenus des fonds interrogés. Elle représente une amélioration importante de l'approche de clustering globale. D'un point de vue pratique, le paradigme d'analyse de données multi-vues (MVDA) combine l’exploitation des points de vue multiples avec celle du raisonnement bayésien non supervisé dans le processus de clustering. Son avantage principal est d'être un paradigme générique qui peut être appliqué à n'importe quelle méthode de clustering et qui permet d’augmenter la qualité et la granularité des résultats de clustering tout en supprimant le bruit qui est inhérent à une approche globale.

Le principe du paradigme MVDA est ainsi d’être constitué par plusieurs modèles de clustering qui ont été produits à partir des mêmes données, ou encore, de façon duale, à partir de données différentes qui partagent le même espace de description. Chaque modèle est issu d'un point de vue spécifique et peut être généré par n'importe quelle méthode de clustering. La relation entre les modèles est établie par l'utilisation d’un mécanisme de communication inter-modèle lui-même basé sur le raisonnement bayésien non supervisé (fig. 1).

Agrandir Image1

Figure 1. Principe de la communication inter-modèle dans le paradigme MVDA

Une des richesses de ce paradigme est qu'il existe de nombreuses manières de définir des points de vue. La solution la plus directe consiste à séparer l'espace de description des données en différents sous-espaces correspondant à différents critères d'analyse. A titre d’exemple, une page web peut être simultanément décrite en utilisant 3 points de vue différents représentés par : (1) un vecteur de mots-clés issus d’un processus d’extraction à partir du plain texte de la page ; (2) un vecteur de lien entrants ; (3) un vecteur de liens sortants. Une analyse multi-vues qui est effectuée sur de telles données peut ainsi permettre de mettre en les relations générales existant entre le domaine du contenu et celui des liens. En webométrie, une telle approche peut aider à « thématiser » des groupes de liens, tout en maintenant en parallèle la possibilité de caractériser isolement des relations thématiques spécifiques existant à l'intérieur de chaque domaine.

Le paradigme MVDA a été choisi comme une des deux approches de référence du projet européen IST-EISCTES (François, 2003). Une de ses versions plus récente a ouvert de nouvelles perspectives en Webométrie en permettant de croiser automatiquement des analyses de contenu avec des analyses de référencement (Al Shehabi, 2006).

Le paradigme MVDA représente également un paradigme prometteur pour l’analyse de l'information variant au cours du temps. En effet, il permet de définir des stratégies efficaces et précises pour l’analyse diachronique non supervisée basées sur l’association de modèles de clustering liés aux différentes périodes de temps à des points de vue séparés. Dans la section 2, nous montrons comment exploiter les principes de ce paradigme de 2 manières différentes pour automatiser entièrement de telles analyses. La section 3 décrit notre première expérience et ses résultats. La section 4 dessine notre conclusion et nos perspectives.

Une nouvelle approche pour analyser l’information variant au cours du temps

Principes de base

Analyser la différence entre périodes de temps revient à caractériser les différents changements ou similitudes thématiques qui pourraient se produire entre les périodes (apparition de sujets, disparition de sujets, division de sujets, fusion de sujets, stabilité de sujets). Pour mener à bien un tel type d’analyse, il est possible d’appliquer une stratégie basée sur la distribution de propriétés en les périodes. Selon cette approche, une deuxième étape d'étiquetage des clusters est réalisée après la construction du modèle clustering pour chaque période. Le but de l'étape d’étiquetage est de caractériser les propriétés ou les étiquettes propres qui peuvent être associées à chaque cluster d'une période de temps donnée. L'identification des relations thématiques entre deux périodes de temps est alors réalisée par l'exploitation du raisonnement bayésien se fondant sur les étiquettes extraites qui sont partagées par les clusters entre les périodes comparées (fig. 2). Les principaux avantages de cette approche sont sa précision intrinsèque due au procédé direct de comparaison de modèles et sa conservation de l'indépendance entre les modèles comparés. Néanmoins, une telle précision ne peut être obtenue que sous la contrainte de l'utilisation d'une technique d’étiquetage de clusters très efficace et de l’adaptation du raisonnement bayésien propre au paradigme MVDA à la comparaison entre les étiquettes.

Agrandir Image2

Figure 2. L’approche MVDA basée sur les étiquettes

Dès lors que les deux approches doivent également se fonder sur des résultats optimaux de clustering afin d'identifier avec précision les thématiques et leurs changements potentiels entre les périodes de temps, l'utilisation d’une stratégie d'évaluation fiable des résultats de clustering devient elle-même un point central de cette méthodologie.

Techniques de validation du clustering et d’étiquetage des clusters

Quiconque vise à comparer différentes méthodes de clustering, ou même à évaluer les résultats d’une méthode donnée, sera confronté au problème du choix d’indices de qualité fiables. Les indices classiques d'évaluation de la qualité de clustering sont principalement basés sur l'inertie intra-cluster et l'inertie inter-cluster (Davis, 1979). Selon ces deux mesures, un résultat de clustering sera considéré comme pertinent s’il affiche une faible inertie intra-cluster associée à une forte inertie inter-cluster. Cependant, comme il a été montré dans (Lamirel, 2004), les indices basés par distance sont souvent fortement biaisés et très dépendants de la méthode de clustering utilisée. Ils ne peuvent ainsi pas être facilement employés pour comparer différentes méthodes, ou même différents résultats de clustering issus de données dont les espaces de description sont de tailles différentes. Par ailleurs, comme il a également été montré dans (Kassab, 2008 ; Ghribi, 2010), ces indices sont proprement incapables d’identifier un modèle de clustering optimal si le corpus à analyser est constitué de données complexes représentées dans un espace de description à la fois fortement multidimensionnel et ultra-creux, comme c'est souvent le cas des corpus de données textuelles. Pour faire face à de tels problèmes, nos indices de Rappel/Précision et de F-mesures non supervisés exploitent les propriétés des données associées à chaque cluster après le processus de regroupement, mais sans considération préalable des profils de clusters. Leur avantage principal est ainsi d'être indépendant des méthodes de clustering et de leur mode opératoire.

Si l’on considère un ensemble C de clusters résultant de l’application d’une méthode de clustering à un ensemble D de données, les valeurs locales de Rappel et de Précision pour une propriété p d’un cluster c peuvent être exprimées comme :

Image3

où la notation Xp représente la restriction de l’ensemble X aux membres possédant la propriété p.

Pour estimer la qualité globale d’un modèle de clustering, les indices de Macro-Rappel (R) and Macro-Précision (P) moyens peuvent alors être définis comme :

Image4

Sc représente l’ensemble des propriétés qui sont propres au cluster c, qui vérifie :

Image5

ou Image6 représente le sous-ensemble des clusters propres extraits de l’ensemble C des clusters du modèle, qui vérifie :

Image7

ou Image8 représente le poids de la propriété p pour l’élément x.

De manière similaire à la recherche d’information, la F-mesure peut être employée pour combiner les indices de Macro-Rappel et de Macro-Précision. Par ailleurs, nous avons démontré dans (Lamirel, 2004) que si les deux valeurs de Macro-Rappel et de Macro-Précision atteignent la valeur unité, l'ensemble des clusters propres Image9 représente un treillis de Galois. Par conséquent, la combinaison de ces deux indices permet d'évaluer dans quelle mesure une méthode de clustering numérique peut être assimilée à un classificateur naturel de Galois.

Les indices de Macro-Rappel et de Macro-Précision (2) peuvent être considérés comme des mesures orientées par les clusters, étant donné qu'ils reposent sur des valeurs moyennes du Rappel et de Précision pour chaque cluster. Ils ont des comportements inverses vis-à-vis du nombre de clusters exploités. Ainsi, ces indices permettent d’estimer d'une manière globale un nombre optimal de clusters pour une méthode donnée et un ensemble de données fixé. La meilleure partition des données, ou meilleur modèle de clustering, est dans ce cas-ci celle qui réduit au minimum la différence entre leurs valeurs.

D'une manière complémentaire, le rôle de l'étiquetage de clusters est d'identifier les caractéristiques ou les propriétés spécifiques aux différents clusters associés, à un instant donné, à un modèle de clustering. L'étiquetage peut être ainsi employé pour visualiser ou synthétiser des résultats de clustering (Lamirel, 2008), pour optimiser l’apprentissage d'une méthode de clustering (Attik, 2006), ou encore pour valider le contenu des clusters proprement dits (Lamirel, 2010). Des indices de pertinence d'étiquette peuvent être directement dérivés de nos indices précédents, en utilisant une approche probabiliste.

Le Rappel d’étiquette L-R dérive directement de (6). Pour une propriété p d’un cluster c, il est exprimé comme :

Image10

La Précision d’étiquetteL-P peut être exprimée comme :

Image11

Par conséquent, l’ensemble des étiquettes qui peuvent être attribuées au cluster c peut être considéré comme l’ensemble des propriétés endogènes ou exogènes des données du cluster qui vérifient :

Image12

où la F-mesure d’étiquetageImage13 peut être définie comme :

Image14

Dès lors que le Rappel d’étiquette est équivalent à la probabilité conditionnelle P(c|p) et que la Précision d’étiquette est équivalente à la probabilité conditionnelle P(p|c), cette nouvelle stratégie d’étiquetage peut être assimilée à une approche de maximisation de vraisemblance, relativement à la définition originale donnée par Dempster et al. (1977).

Expérimentation et résultats

Dans le cadre du projet IST PROM-TECH, Schiebel et al. (2010) ont choisi de partir de la base de données PASCAL de l'INIST et de se fonder sur son plan de classement pour analyser la dynamique des diverses thématiques de recherche couvertes. Ils ont d’abord utilisé une stratégie de collecte simple, consistant à sélectionner les notices bibliographiques possédant en même temps un code de classement en physique, et un code correspondant à un champ d'application technologique. Les deux champs d’application retenus ont été les nouvelles technologies et les sciences de la vie (sciences biologiques et médecine). Par raffinements successifs, combinant des techniques statistiques et des interventions d’experts, les auteurs ont isolé 10 groupes de thématiques prometteuses. Pour leurs expériences d’analyse diachronique, ils ont finalement choisi le groupe de thématiques associées aux dispositifs optoélectroniques, étant donné que ce champ de recherche et d’application est considéré comme un des plus prometteurs de la dernière décennie. 3890 notices se rapportant à ce groupe ont été ainsi extraites de la base de données PASCAL.

De manière analogue à ces derniers auteurs, notre approche a consisté à séparer le corpus résultant du projet PROMTECH en deux périodes différentes, (1996-1999 : période 1) et (2000-2003 : période 2), pour effectuer pour chacune d’entre elles une classification automatique en exploitant le contenu présent dans les notices bibliographiques. La structure initiale des notices permettaient de distinguer les titres, les résumés, les mots-clés d'indexation documentaliste et les auteurs, comme représentatifs du contenu de l'information éditée dans l'article correspondant. Dans notre expérience, nous avons cependant seulement considérés les domaines de recherche liés à la zone de mots-clés d'indexation. Pour chaque période, un ensemble de données spécifique a ainsi été produit. Dans ce but, une série d'étapes de prétraitement a été appliquée à la zone de mots- clés des notices correspondantes afin d'obtenir une représentation vectorielle pondérée de l'information qu'elles contenaient. Les mots-clés de fréquence globale inférieure à 3 ont tout d’abord été supprimés de l’ensemble des notices. 1797 notices décrites par 1256 mots-clés ont été ainsi retenues dans la période 1, et 2074 notices décrites par 1352 mots-clés dans la période 2. Dans une étape finale, les vecteurs descripteurs résultants associés à chaque notice ont été pondérés en utilisant un schéma classique de pondération IDF (Robertson, 1976), afin de diminuer l'influence des index plus fréquents.

Le clustering des ensembles de données associés aux deux périodes est réalisé en employant la méthode Growing Neural Gas (GNG) (Fritske, 1995), qui s'est avérée particulièrement efficace sur des données textuelles thématique homogènes (Lamirel, 2011). Néanmoins, plusieurs expériences différentes sont faites pour chaque période, en faisant varient le nombre de clusters. Le meilleur modèle de clustering, autrement dit, la partition optimale de chaque période, c.à.d. celui qui présente le compromis optimal entre les valeurs moyennes de Macro-Rappel et de Macro-Précision définis par l’équation (2) est finalement conservé. En fin de compte, les étiquettes des clusters des meilleurs modèles sont identifiées de façon non supervisée par la méthode de maximisation d’étiquetage décrite par l’équation (8).

Pour améliorer la qualité de la comparaison, nous avons cependant appliqué sur les modèles de clustering obtenus trois types de post traitement différents et complémentaires :

1- Un seuil de 3, en ce qui concerne la taille des clusters (nombre de données), est appliqué de manière à éliminer les clusters non significatifs (clusters poussières).

2- Pour éliminer le bruit inhérent au contenu des clusters, une stratégie supplémentaire d'identification des composantes connexes d’étiquettes dans les clusters est exploitée. Cette stratégie s’applique sur les étiquettes de clusters identifiées par la méthode de maximisation d’étiquetage décrite par l’équation (8). Les étiquettes maximales qui co-occurrent dans les données associées à un cluster sont recueillies dans une même composante connexe. Les étiquettes bruitées tendront ainsi à constituer des composantes singulières ou atomiques dans un cluster. D'une manière corrélative, les données bruitées associées à un cluster tendront à inclure uniquement des étiquettes appartenant aux composantes singulières. De plus, cette stratégie permet de dissocier les clusters initiaux qui incluent plus d’une composante connexe non singulière en clusters secondaires indépendants et homogènes (fig. 3).

3- Les étiquettes des composantes connexes non singulières d'une période dont la F-mesure d’étiquetage (8) est inférieure à la F-mesure d’étiquetage moyenne du modèle de clustering de la période sont considérées comme non significatives et éliminées des composantes concernées. Les composantes se retrouvant sans étiquette à l’issue de ce processus sont également éliminées.

Agrandir image001

Figure 3. Exemple d’extraction de composantes connexes d’étiquettes. Les composantes résultantes matérialisent, qui du bruit (composantes singulières), qui des thématiques indépendantes (composantes à plus fort effectif)

Les résultats généraux du processus précédemment décrit sont rapportés dans le Tableau 1. Le tableau illustre également quelques changements de surface importants se produisant sur les caractéristiques des données entre les périodes, comme l'augmentation du volume de publication, l'enrichissement des descriptions des travaux (nombre moyen d’étiquettes/doc plus important) et la spécialisation des matières (nombre moyen d’étiquettes recouvrantes plus faible), dans la seconde période.

Agrandir Image15

Tableau 1. Caractéristiques générales des périodes (données) et résultats de clustering optimaux (GNG)

Pour calculer la probabilité de correspondance entre les clusters appartenant à deux périodes de temps différentes, nous modifions légèrement le calcul standard d’inférence bayésienne du modèle MVDA (Al Shehabi, 2004).

Le nouveau calcul est ainsi exprimé de la manière qui suit :

Soit P(t|s) la probabilité d’activité d’un cluster t de la période cible sachant l’activité d’un cluster s de la période source. Celle-ci peut être exprimée comme :

Image16

Lxreprésente l’ensemble des étiquettes associées au cluster x, en exploitant l’approche de maximisation d’étiquetage définie par l’équation (8), et LxLy représente l’ensemble des étiquettes communes, qui peuvent être également désignées comme le noyau de correspondance, entre le cluster x et le cluster y.

La probabilité moyenne de correspondance PA(s) d’un cluster s de la période source peut être définie comme la moyenne des activités générées sur l’ensemble des clusters de la période cible par l’intermédiaire de ses étiquettes associées :

Image17

Env(s) représente l’ensemble des clusters de la période cible activés par les étiquettes du cluster s de la période source.

L’activité moyenne globale As générée par un modèle source model S sur un modèle cible T peut être définie comme :

Image18

Son écart-type peut être défini comme бs.

La similarité entre un cluster s de la période source et un cluster t de la période cible sera considérée comme valide si les deux règles de similarité suivantes sont vérifiées :

P(t|s) > PA(s) et P(t|s) > As+ бs. (13)

P(s|t) > PA (t) et P(s|t) > At + бt. (14)

L’éclatement de cluster est vérifié s'il y a plus d'un cluster de la période cible qui vérifie les deux règles de similarité susmentionnées avec un cluster de la période source. Réciproquement, la fusion de clusters est vérifiée s'il y a plus d'un cluster de la période source qui vérifie ces règles de similarité avec un cluster de la période cible.

Les clusters de la période source qui n'ont pas de cluster similaire dans la période cible sont considérés comme des clusters évanescents. Réciproquement, les clusters de la période cible qui n'ont pas de cluster semblable dans la période source sont considérés comme des clusters émergents.

Le tableau 2 récapitule les résultats de notre expérience de comparaison entre périodes de temps, en termes d'identification de correspondances et de différences. Pour une période donnée, le nombre de clusters impliqués dans la comparaison correspond à son nombre optimal de cluster. Il convient de noter que le nombre d’éclatements de clusters de la première période dans la seconde période est plus important que le nombre inverse de fusions dans la seconde période, ce qui indique une diversification de la recherche dans le domaine de l'optoélectronique au cours de la seconde période.

Agrandir Image19

Tableau 2. Synthèse des résultats de comparaison

Finalement, des rapports de correspondance et de divergence thématiques sont construits automatiquement à partir de ces informations, afin d'être présenté aux analystes. Chaque rapport inclut un cluster de chaque période, s’il s’agit d’un rapport de correspondance, ou un cluster d'une seule période, s’il s’agit d’un rapport de divergence (c.-à-d. un thème évanescent ou émergent). Dans le cas d'un rapport de correspondance, les similitudes entre les clusters des périodes comparées sont identifiées par les groupes d'étiquettes partagées (c.-à-d. les noyaux de correspondance), extraits à partir du processus de maximisation de l’étiquetage des clusters (8). Nous avons également nommé ces groupes des étiquettes-cœur. Celles-ci illustrent en effet d'une manière spécifique la nature des correspondances temporelles. Les étiquettes des clusters de chaque période qui n'appartiennent pas aux noyaux de correspondance sont également considérées séparément dans les rapports de correspondance. Elles peuvent être utilisées pour illustrer de faibles changements temporels contextuels se produisant dans le cadre d'une similitude globale de sujet entre deux périodes.

Les étiquettes des rapports sont classées par ordre décroissant de leur différence de F-mesure d’étiquetage entre les périodes. Si une étiquette spécifique d'une période donnée n'existe pas dans la période alternative, ou si sa F-mesure d’étiquetage est inférieure à la F-mesure moyenne d’étiquetageImage20du clustering global, elle est marquée comme absente de cette première période (fig. 4).

Agrandir Image21

Figure 4. Structure d’un rapport de correspondance thématique élémentaire (i.e. brut)

Dans une étape finale, les rapports de correspondance et de divergence sont légèrement adaptés, en utilisant un processus automatique, afin d'accentuer les informations les plus importantes qu'ils fournissent. Pour des rapports de correspondance, un procédé automatique de migration d'étiquettes-cœur du noyau de correspondance vers les périodes est employé pour mieux figurer à quelle période chaque étiquette dudit noyau peut éventuellement être plus spécifiquement rattachée. La migration d'une étiquette du noyau vers une période donnée est appliquée si la F-mesure d’étiquetage de cette étiquette est deux fois plus importante dans cette période que dans la période alternative. Par ailleurs, pour tous les rapports et pour toutes les étiquettes, des gradations de différence de F-mesure d’étiquetagesont calculées en se basant sur la F-mesure moyenne d’étiquetage Image22du clustering et sur son écart-type (ϭFF ).

Pour une étiquette l donnée, la gradation k est ainsi calculée comme :

Image23

FFs(l) représente la F-mesure d’étiquetage de l’étiquette l de la période source s, and FFt (l) sa F-mesure d’étiquetage dans la période cible t.

Dans tous les rapports, les gradations de différence de F-mesure d’étiquetage sont mises en évidence graphiquement pour k =2 et pour k>3. L’exemple complet de l’adaptation du rapport de correspondance présenté à la (fig. 4) est donné à la (fig. 5).

Les résultats produits par notre approche automatisée de comparaison des périodes de temps ont été finalement comparés à ceux de l'analyse effectuée par des experts du domaine sur les partitions produites sur des périodes séparées dans l'ancienne expérience de Schiebel et al. (2010), menée dans le cadre du projet PROM-TECH.

Cette dernière analyse avait principalement aboutie aux conclusions suivantes :

  • L'ensemble général de sujets du corpus étudié correspond aux dispositifs optoélectroniques contenant des semi-conducteurs minéraux ou organiques ;

  • La recherche et les applications de l'optoélectronique ont évoluées du champ des « détecteurs photoélectriques » (des sondes, des instruments de mesure,…), dans la période 1, vers celui des « diodes électroluminescentes », dans la période 2.

Les conclusions mentionnées ci-dessus présentent l'inconvénient de ne fournir que des informations superficielles sur les évolutions potentielles. L'examen des rapports de correspondances et de divergences fourni par notre nouvelle méthode d'analyse diachronique prouve qu'il est possible d'obtenir à la fois des conclusions synthétiques et précises, ainsi que des indications claires et chiffrées des tendances (croissance ou diminution), d'une manière non supervisée, tout en préservant la possibilité d'observer des orientations générales, comme celles exprimés par les experts du projet PROM-TECH.

Pour la validation de notre approche, tous les rapports finalisés de correspondance et de divergence ont été mis à disposition d’un groupe d’experts du domaine de l’optoélectronique. Au vu de ces rapports, ces experts ont clairement abouti à la conclusion que, tout en maintenant à la fois un niveau de description suffisamment général et un arrière-plan contextuel suffisamment précis, ces rapports permettaient d’appréhender avec une très grande finesse les développements extrêmement riches des thèmes de recherche inhérent au domaine de l’optoélectronique au cours de la période 1996-2003 : depuis les études théoriques vers les applications pratiques (des polymères optiques aux films polymères (fig. 6), des lasers à émission de surface ou lasers semi-conducteurs aux lasers à cavité verticale ou VCSEL (fig. 7), …), depuis l'exploitation de nouveaux composants chimiques vers la production de nouveaux dispositifs (de l'arséniure de gallium aux dispositifs à puits quantiques (fig. 8), …), ou vers celle de nouveaux types de semi-conducteurs (des composés de silicium aux semi-conducteurs amorphes (fig. 9), des composés de gallium aux semi-conducteurs à large bande (fig.10), l’augmentation de l'exploitation du germanium, …), ou vers l’émergence des nouvelles structures de semi-conducteurs aux propriétés auto-organisatrices (fig. 11).

Agrandir Image24

Figure 5. Structure d’un rapport de similarité adapté (i.e. finalisé)

Image25

Figure 6. Rapport de similarité relatif au fort développement des thèmes « Polymer blends » et « Polymer films » (Développement des films et des couches polymères liés à l’apparition de la technologie des écrans fins)

Un autre point intéressant au sujet du comportement de la méthode proposée est que les changements de vocabulaire qui se rapportent à des variations thématiques progressives ou contextuelles restent inclus dans les mêmes rapports de correspondance, sans être associer de ce fait à différents contextes, ou même non détectés. A titre d’exemple, le rapport de correspondance de la (fig. 12) aide à confirmer l'évolution progressive du domaine de l’optoélectronique des développements ponctuels aux processus industriels à large échelle (évolution du concept de fabrication optique vers celui de design optique).

Image26

Figure 7. Rapport de correspondance relatif à l’émergence progressive du thème « Vertical cavity lasers » (ou « VCSEL ») (Micro-lasers à cavité verticale)

Image27

Figure 8. Rapport de correspondance relatif à l’émergence du thème « Quantum well devices » dans le contexte du thème « Infrared detectors » (Dispositifs à puits quantiques)

Image28

Figure 9. Rapport de correspondance relatif au fort développement du thème « Amorphous semicoductors » (Semi-conducteurs amorphes) en lien avec les thèmes « Hydrogen » et « Selenium »

Image29

Figure 10. Rapport de correspondance relatif au fort développement du thème « Wide band gap semiconductors » (Semi-conducteurs à large bande)

Image30

Figure 11. Rapport de correspondance relatif à l’émergence progressive du thème « Semiconductors superlattices » (Superstructures de semi-conducteurs)

Image31

Figure 12. Rapport de correspondance relatif au changement d’échelle de production des composants optoélectroniques

Toujours de l’avis des experts, les rapports automatiques de divergence entre les périodes, matérialisant des disparitions ou des apparitions de sujets (i.e. thèmes de recherche), jouent le rôle de mettre à jour de forts changements du domaine, d’un ordre plus important que ceux susceptibles d’être décrits par les rapports de correspondance. La disparition complète de la recherche sur des fibres optiques au cours de la seconde période est ainsi clairement matérialisée (fig. 13). Réciproquement, l’émergence manifeste de nouveaux travaux de recherches sur la phosphorescence, en corrélation avec le développement très significatif de ceux sur la fluorescence, est également correctement matérialisée d'une telle manière (fig. 14). De même, l'apparition des travaux de recherches sur les capteurs optiques à haute résolution et sur leur intégration sur puces, directement liée au développement important du marché des caméras numériques dans la seconde période (fig. 15), tout comme l'apparition de recherches prometteuses sur les nouvelles génération des nano-transistors optiques à haut rendement (quantum dots) (fig. 16), sont également exactement figurées par les rapports de divergence.

Image32

Figure 13. Rapport de divergence lié à la disparition du thème « Optical fibers » (Disparation de la recherche sur les fibres optiques)

Image33

Figure 14. Rapport de divergence lié à la forte apparition du thème « Phosphorescence » et au développement très significatif du thème « Fluorescence »

Image34

Figure 15. Rapport de divergence lié à la forte apparition des thèmes « Pixel » et « CMOS image sensors » (Liés au développement du marché des caméras numériques)

Une validation objective des résultats de l'approche proposée peut également être réalisée en recherchant à mesurer l’évolution, entre les deux périodes, de l’effectif des notices bibliographiques liées aux principaux sujets rapportés comme évanescents ou émergents par cette dernière. Dans ce but, nous employons les mots-clés identifiés comme les meilleures étiquettes (c.-à-d. les étiquettes les plus F-maximisées (8) et avec la plus grande différence de F-mesure d’étiquetage avec la période alternative) dans les clusters représentant les sujets évanescents ou émergents. Nous recherchons ensuite l’ensemble des notices bibliographiques indexées par ces mots-clés dans chaque période, et nous en faisons un comptage. Le tableau 3 synthétise les effectifs de telles notices dans chaque période. La (fig. 17) propose les courbes d’évolution par année des effectifs des notices mentionnées ci-avant. Les deux techniques démontrent clairement l'efficacité de la méthode pour détecter les principaux changements. Elles dénotent également la capacité de la F-mesure d’étiquetage à mesurer la quantité de changement entre les périodes.

Image35

Figure 16. Rapport de divergence lié à la très forte apparition du thème « Semiconductors quantum dots » (Nano semi-conducteurs à haut rendement)

Agrandir Image36

Table 3. Evolution du nombre de papiers relatifs aux thèmes évanescents et émergents entre les périodes

Les résultats complets fournis par notre méthode diachronique ne peuvent pas être présentés ici. Ils ont donc été ainsi rendus disponibles à une adresse spécifique (Résultats, 2011).

Cependant, on pourrait déjà remarquer qu'un tel processus d'exploitation de changement de sujets utilisant l'information simple de mots-clés était impossible jusqu'ici à atteindre avec les méthodes existantes, qui, en outre, est resté tout au plus semi-supervisé. Cette capacité inédite fait de notre approche une approche prometteuse dans le domaine.

Agrandir Image37

Figure 17. Evolution par année du nombre de papiers relatifs aux thèmes évanescents et aux thèmes émergents

Conclusion

Nous illustrons dans ce papier la faisabilité d'une approche incrémentale non supervisée pour une analyse par pas de temps des données bibliographiques. Cette analyse a été grâce effectuée à l'exploitation d'un modèle spécifique d'analyse de données ayant pour caractéristique originale de gérer des vues multiples sur les données, à savoir le modèle MVDA. Elle a également reposé sur l'exploitation de mesures originales et stables pour évaluer la qualité et la cohérence des résultats de clustering, ainsi que pour synthétiser avec précision le contenu des clusters. À notre connaissance, notre approche représente la première approche finalisée qui a été proposée jusqu’alors aujourd’hui pour automatiser le processus d'analyse de l’information textuelle évoluant au cours du temps, en utilisant simplement le contenu textuel proprement dit et en incluant la quantification précise des changements. Notre expérimentation a montré que cette approche était fiable et quelle pouvait produire des résultats très précis et très significatifs sur un ensemble de données complexe et volumineux constitué des notices bibliographiques, à l’exemple du corpus européen de référence du projet IST PROMTECH, lié au domaine de recherches des dispositifs optoélectroniques.

Dans un futur proche, nous prévoyons d'évaluer l'application de cette approche, dans le cadre de l’INIST, pour les tâches de veille scientifique et technologique basées sur de grands fonds de données scientifiques. Dans ce cadre, la détection automatisée des évolutions des thèmes et des groupes de recherche est essentielle car qu'elle donne aux analystes de l'information la possibilité d'effectuer des études exploratoires à très large échelle.

Pour mieux évaluer la robustesse de notre méthode aux changements importants de vocabulaire, nous prévoyons finalement de la comparer avec précision aux approches diachroniques récentes basées sur le co-clustering d'information lexicologique et bibliographique (Thijs, 2010

Bibliographie

Allan J., Carbonell J., Doddington, G.,. Yamron J., Yang Y. (1998). Topic detection and tracking pilot study, final report. Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop, Lansdowne, Virginia.

Al Shehabi S., Lamirel J.-C. (2004). Inference Bayesian Network for Multi-topographic neural network communication: a case study in documentary data. Proceedings of ICTTA, Damascus, Syria, April 2004.

Al Shehabi S., Lamirel J.-C. (2006). Evaluation of collaboration between European universities using dynamic interaction between multiple sources. Journal of Information Management and Scientometrics (JIMS) 1(3) 2006.

Attik M., Lamirel J.-C., Al Shehabi S. (2006). Clustering Analysis for Data with Multiple Labels.Proceedings of the The IASTED International Conference on Databases and Applications (DBA), Innsbruck, Austria, February 2006.

Davies, D. and Bouldin, W. (1979). A cluster separation measure. IEEE Trans. Pattern Anal. Machine Intell. 1 (1979) 224–227.

Dempster A.P., Laird N.M. and Rubin D.B. (1977). Maximum likelihood for incomplete data via the EM algorithm. Journal of the Royal Statistical Society, vol. B-39: 1-38.

François C., Hoffmann M., Lamirel J.-C., Polanco X. (2003). Artificial Neural Network mapping experiments. EICSTES (IST-1999-20350) Final Report (WP 9.4), 86 p., September 2003.

Frizke B. (1995). A growing neural gas network learns topologies. Tesauro G., Touretzky D. S., leen T. K., Eds., Advances in neural Information processing Systems 7, pp. 625-632, MIT Press, Cambridge MA.

Gaber M., Zaslavsky A. and Krishnaswamy S. (2005). Mining Data Streams: A Review. SIGMOD Record, 34(2).

Glanzel W., Thijs B. (2010) 88(1). Using ‘core documents’ for the representation of clusters and topics. Scientometrics, 88(1), pp. 297-309.

Ghribi M., Cuxac P., Lamirel J.C., Lelu A. (2010). Mesures de qualité de clustering de documents : Prise en compte de la distribution des mots-clés. EvalECD’2010 Workshop, Hamamet, Tunisia.

Lamirel J.-C., Créhange M. (1994). Application of a symbolico-connectionist approach for the design of a highly interactive documentary database interrogation system with on-line learning capabilities. Proceedings ACM-CIKM 94, Gaitherburg, Maryland, USA, November 94.

Lamirel J.-C., Al-Shehabi S., François C., Hoffmann M. (2004a). New classification quality estimators for analysis of documentary information: application to patent analysis and web mapping. Scientometrics, 60(3), pp. 445-462.

Lamirel J.-C. and Al Shehabi S. (2004b). Comparison of unsupervised neural clustering methods for mining Web and textual data, SCI 2004, Orlando, FL, USA, July 2004.

Lamirel J.-C., Ta A.P. and Attik M. (2008). Novel Labeling Strategies for Hierarchical Representation of Multidimensional Data Analysis Results. IASTED International Conference on Artificial Intelligence and Applications (AIA), Innsbruck, Austria, February 2008.

Lamirel J.C., Boulila Z., Ghribi M., Cuxac P. (2010). A new incremental growing neural gas algorithm based on clusters labeling maximization: application to clustering of heterogeneous textual data. Proceedings of IEA-AIE 2010, Cordoba, Spain, June 2010.

Lamirel J.C., Mall R., Cuxac P., Safi G. (2011). Variations to incremental growing neural gas algorithm based on label maximization. Proceedings of IJCNN 2011, San José, CA, USA, August 2011.

MacQueen J.B. (1967). Some methods of classification and analysis of multivariate observations. L. Le Cam and J. Neyman (Eds.), Proc. 5th Berkeley Symposium in Mathematics, Statistics and Probability, vol. 1., pp. 281-297, Univ. of California, Berkeley, USA, 1967.

Resultats (2011). https://sites.google.com/site/diacresults2012.

Robertson, S. E., & Sparck Jones, K. (1976). Relevance Weighting of Search Terms. Journal of the American Society for Information Science, 27:129–146.

Schiebel E., Hörlesberger M., Roche I., François C., Besagni D. (2010). An advanced diffusion model to identify emergent research issues: the case of optoelectronic devices. Scientometrics. vol. 83, N° 3, pp. 765-781, 2010.

Thijs B. Glänzel, W. (2010). A new hybrid approach for bibliometrics aided retrieval, Sixth International Conference on Webometrics, Informetrics & Scientometrics, and 11th COLLNET Meeting, Mysore, India, October 2010.

Voorhees E.M. (1986). Implementing agglomerative hierarchical clustering algorithms for use in document retrieval. Information Processing and Management, vol. 22, pp. 465-476.

Pour citer ce document

Jean-Charles Lamirel, «Une nouvelle approche pour automatiser l'analyse de la dynamique de domaines de recherche», Intelligences Journal [En ligne], Numéro 3 , Numéros en texte intégral , URL : http://lodel.irevues.inist.fr/isj/index.php?id=349

Auteurs

Jean-Charles Lamirel
INRIA team TALARIS-LORIA