Intelligences Journal revue en intelligence économique
[English version]

Veille des communautés de logiciels libres : vers un socio-mètre des listes de discussion électroniques

Alexandre Delanoë

Résumé

Au cours des 20 dernières années, l’usage du message électronique s’est largement répandu, sa pratique devenue quotidienne génère progressivement une masse de données non négligeable notamment pour l’analyse des phénomènes sociaux. Pour autant, l’analyse de ce type de données reste difficile dans le sens où ces informations restent peu accessibles : elles apparaissent sensibles à la fois pour la confidentialité de la vie privée individuelle mais aussi pour le caractère stratégique qu’elles suscitent pour les organisations qui les produisent. C’est pourquoi, cet article propose un indicateur agnostique respectant la confidentialité des producteurs d’informations de manière à caractériser et comparer des collectifs entre eux. Ce socio-mètre est construit à partir d’une analyse en réseau des micro-structures des interactions locales dans les fils de discussion. Pour illustrer son usage, il est appliqué à un large corpus, les listes de discussions électroniques Debian (et Ubuntu comme collectif témoin) depuis leur création, c’est-à-dire sur une durée de 20 ans.

Abstract

Over the past 20 années, the use of e-mail has widespread. Its daily practice generates gradually a significant mass of data which can eventually be used to analyze social phenomena. However, the analysis of such data remains difficult (or impossible) since these informations are not easily accessible. This knowledge appear sensitive because of privacy and strategic meaning they hold for organizations that produce them. Therefore, this paper proposes an agnostic indicator (the thread index) respecting the confidentiality of information producers, in order to characterize their on-line discussions and to enable comparisons. This socio-meter is built from analysis of local micro-structures of interactions in threads of discussion. To illustrate its use, it is applied to a large corpora: Debian and Ubuntu mailing-lists since their creation, e.g. over a period of 20 années.

Mots-clés

communauté open source, grandes masses de données, sociologie des réseaux, vie privée, indicateur agnostique, conversation en ligne, open source community, big data, network analysis, privacy, thread index, email analysis

Texte intégral

Les recherches existantes sur la structure de fil

Pour construire un indicateur du niveau de controverses sur les listes de discussions électroniques certaines approches mobilisent des classificateurs combinant à la fois analyse sémantique (ou analyse des émotions) et données relationnelles [Mishne and Glance, 2006] des messages en réseaux. Ainsi, des propriétés intéressantes des fils de discussion ont été découvertes récemment.

Une analyse statistique des réseaux sociaux et des fils de discussion a, en effet, conduit à produire une mesure structurale robuste du « niveau » de controverses [Gómez et al., 2008] des discussions en ligne : « malgré la forte hétérogénéité de la forme des discussions en ligne représentables sous la forme d’un arbre radial, une simple invariance de profondeur existe et apparaît corrélative à leur évolution [Gómez et al., 2008] ». Cette méthodologie mobilise un H-index adapté (communément utilisé pour étudier les productions scientifiques) et un index de profondeur des fils (voir Figure 4) pour observer la pertinence d’une telle corrélation. Ainsi cette recherche met en avant la corrélation entre un indicateur de qualité et un calcul de profondeur du fil.

Mais l’inconvénient de cette approche est à la fois méthodologique et socio-politique. Cette méthode est spécifique au type de corpus constitué étant donné que les réponses doivent être évaluées par les contributeurs1. En outre, les messages anonymes ne sont pas pris en compte. La structure des fils de discussion peut être plus finement analysée de manière à généraliser les usages possibles de la structure d’un fil de discussion en réseau.

Dans une autre étude parallèle, la forme des fils a été mise en valeur de manière à produire deux types de structures : une forme en éventail et une forme filiforme [Conein et Latapy, 2008] (Figure 1). Les auteurs ont ainsi souligné l’évolution collaborative de la construction de connaissances lorsque les fils émergent dans une forme spécifique.

Figure 1 : Schema d’un fil en éventail (star shape) et filiforme (line shape) [Conein et Latapy, 2008]

En partant de ces premiers travaux fondateurs, cet article vise à montrer comment le barycentre d’un fil de discussion peut caractériser les discussions électroniques de manière à développer un indicateur agnostique de qualité du fil de discussion. En partant de l’analyse des pratiques des usagers [Delanoe et Conein, â paraître], la généralisation de notre interprétation sera ici questionnée à partir d’une étude statistique exhaustive.

Les principaux contributeurs aux logiciels libres échangent quotidiennement des connaissances sur différentes listes de discussion électroniques spécialisées. Les pratiques sur les messageries électroniques ont été étudiées [Delanoe et Conein, â paraître] en se concentrant sur l’usage de la forme des fils. Si, rigoureusement, un fil est un arbre hiérarchique orienté de messages électroniques, il peut aussi être compris comme un indicateur dont la forme permet aux contributeurs de se co-orienter dans le cours de son développement.

Dans cette perspective, le fil apparaît comme un indicateur pour les membres, une indication du contenu échangé dans le fil et donc un indicateur de qualité. Dans quelle mesure ces pratiques assez localisées peuvent-être généralisées à l’ensemble des contributeurs ? Pour aborder ce problème, les infrastructures informatiques ont été utilisées pour tracer les interactions entre contributeurs. Cet article présente ainsi essentiellement la partie statistique d’un projet de recherche sociologique plus large sur les modes de collaboration épistémiques sur Internet.

Big data and micro-structure : variations locales sur la longue durée

Une observation participante aux listes électroniques du collectif Debian conduit à comprendre comment les acteurs se co-orientent dans la structure d’un fil de discussion. Ainsi, les contributeurs interprètent des « schémas » de fils pour économiser leur temps de lecture. Mais dans quelle mesure l’interprétation du sens de la forme des fils de discussion, est-elle généralisable à l’ensemble des contributeurs des listes de discussion électroniques étudiées ? N’existe-t-il pas un effet de loupe inhérent à la focale de la lecture qualitative des différents échanges ? De plus, si toutefois l’inférence était raisonnable, n’existe-t-il pas des spécificités collectives ou individuelles ?

Pour déterminer dans quelle mesure l’interprétation sociologique des interactions locales est généralisable, et mérite éventuellement d’être nuancée, une étude comparative à la fois quantitative et statistique devient nécessaire. Sont alors étudiées les variations des structures locales des fils de discussion à un niveau plus « global », c’est-à-dire sur la longue durée.

Rappelons que les questions jalonnant cette partie statistique d’une enquête sociologique plus générale visent à tester l’hypothèse du contrôle de la forme du réseau comme marqueur d’identité sociale [Delanoe et Conein, â paraître]. Dans cette perspective, les étapes suivantes deviennent nécessaires :

1. Tout d’abord, la structure des fils de discussion varie-t-elle dans le temps d’une manière cohérente, c’est-à-dire ses variations sont-elles interprétables sociologiquement  ?  

2. Ensuite, la structure des fils de discussion se différencie-t-elle selon les listes de discussion, en d’autre termes se différencie-t-elle en fonction des niveaux d’expertise ou des langues – puisque l’avantage de ces projets de logiciel libre est de permettre des comparaisons internationales ?  

3. Enfin, la structure des fils de discussion varie-t-elle significativement en fonction des sujets de discussion et/ou permet-elle de typifier les contributions et ainsi caractériser les individus  ?  

Trois principaux problèmes d’ordre méthodologique apparaissent immédiatement. Le premier problème concerne la constitution du corpus qui doit correspondre exactement à ce que « voient » les contributeurs sans opérer une traduction propre à notre objet de recherche, au risque de modifier artificiellement la structure des fils.

Ensuite, le second problème concerne l’analyse du fil proprement dite. Nous allons en effet progressivement déconstruire le fil pour en décrire quantitativement ses formes et variations élémentaires. Le travail sur un grand nombre de données nécessite en effet un certain nombre de concepts mathématiques propres à l’analyse des fils de discussion en réseaux : quantité et densité, longueur et profondeur, moyenne et barycentre.

Enfin, le troisième problème est relatif à l’interprétation des statistiques obtenues. Dans quelle mesure les variations globales sont-elles significatives du fonctionnement des structures locales ? Pour ce dernier problème, la définition d’une hypothèse nulle devient nécessaire. L’écart entre les données réelles et cette hypothèse nulle permet l’inférence. Ainsi, l’hypothèse nulle, celle supposant que les pratiques analysées localement ne sont pas généralisables, suppose une évolution aléatoire des formes locales des fils de discussion à la fois liste par liste et sur la longue durée. Si les formes n’étaient pas aléatoires et qu’elles s’orientaient tendanciellement vers une forme particulière, la question sociologique devient alors : dans quelle mesure cette forme reste-t-elle cohérente avec l’analyse de pratiques quotidiennes des contributeurs ?

Quantité et densité

Dans quelle mesure la forme des processus d’interactions dans les listes de discussion est-elle signifiante du collectif de contributeurs ? C’est au moyen d’une étude exhaustive des listes Debian et Ubuntu (comme échantillon témoin), utilisateurs et développeurs, anglophones et francophones que fut recherchée une réponse à cette question en étudiant les variations locales sur la longue durée.

Avant l’analyse proprement dite, un corpus fut constitué. Le travail sur celui-ci est explicité car la matière des données constitue la matière première des résultats obtenus.

L’intérêt scientifique de ces projets de logiciels libres est notamment de rendre un libre accès aux archives des listes de discussions électroniques. Le corpus Debian se compose initialement de l’ensemble des messages postés depuis leur constitution respective, 1994 pour la première liste officielle du projet Debian :

  • liste « user » (646 005 messages, 17 années, 104 messages/jour average) : liste des utilisateurs anglophones ;

  • liste « user-french » (178 844 messages, 10 années, 49 messages/jour a.) : liste des utilisateurs francophones ;

  • liste « devel » (305 106 messages, 17 années, 49 messages/jour a.) : liste des développeurs (anglophone) ;

  • liste « vote » (17 266 messages, 12 années, 4 messages/jour a.) : liste spécifiques aux votes du projet Debian ;

  • liste « mentors » (58 778 messages, 13 années, 12 messages/jour a.) : liste spécifique à l’intégration des nouveaux contributeurs.

Ubuntu est un projet plus récent qui prolonge le projet Debian avec quelques différences notables dans ses orientations organisationnelles ; la première liste est référencée à partir de 2004 :

  • liste « user » (246 233 messages, 7 années, 96 messages/jour a.) : liste des utilisateurs anglophones ;

  • liste « fr » (37 073 messages, 7 années, 15 messages/jour a. ) : liste des utilisateurs francophones ;

  • liste « devel » (33 134 messages, 7 années, 13 messages/jour a.) : liste des développeurs (anglophone) ;

  • liste « devel-discuss » (12 676 messages, 5 années, 7messages/jour a.) : liste de discussion des problèmes généraux.

Nous obtenons ainsi un corpus initial de près 1,5 millions de messages électroniques. En nous concentrant sur les listes principales en termes de quantité de messages publiés, c’est-à-dire les listes des utilisateurs du système d’exploitation Debian, il est possible de constater que la quantité de messages électroniques postés sur les listes créées au début des années 90 diminue tendanciellement depuis 2002.

Figure 2 : Quantité de messages publiés par mois sur les listes utilisateurs Debian et Ubuntu

Plusieurs hypothèses concurrentes peuvent être avancées pour comprendre le phénomène de baisse du nombre de messages postés sur les listes Debian :

  • soit moins de messages signifie moins de discussion sur les listes ou encore moins fils de discussion ;

  • soit les contributeurs Debian interviennent sur les listes de systèmes d’exploitation concurrents (comme Ubuntu par exemple) ;

  • soit un moindre intérêt pour l’usage du message électronique conduit à ce que d’autres supports d’échanges soient utilisés (comme les forums par exemple) ;

  • soit il existe moins de problèmes techniques nouveaux (de nombreux sont déjà résolus et accessibles vis les moteurs de recherche).

Chacune des hypothèses peut être nuancée, voir réfutée. Cependant, comme il ne s’agit pas de l’objectif principal de l’article nous ne nous y attarderons pas même s’il convient de bien saisir le paradoxe auquel nous sommes confrontés pour la poursuite de notre enquête.

Comme le montre l’illustration de la Figure 2, l’évolution de la quantité de messages postés sur notre collectif témoin, Ubuntu, suit la même évolution que ceux sur les listes Debian. Le phénomène n’est donc pas spécifique à Debian. Si la quantité de messages par an diminue, est-ce pour autant le signe qu’il existe moins de discussions sur les listes ? Le nombre de messages par fil apparaît comme un indicateur faible pour observer les fils de discussion. Il convient donc d’étudier l’évolution des fils de discussion dans le temps. Pour réaliser cet objectif, il convient de rassembler les messages par fil de discussion.

Rassembler les messages par fils, suppose une agrégation dont la méthodologie doit être expliquée. Pour des raisons à la fois techniques et socio-politiques, le format natif des archives Debian n’est pas disponible publiquement. L’accès aux archives est en effet modéré dans la mesure où l’extraction des données dépend aussi du format mis à disposition. Précisément, le projet Debian rend accessible les échanges de messages dans un format particulier2 (HTML) qui facilite l’indexation par les moteurs de recherche. En outre, les messages sont retraités de manière à respecter l’anonymat de l’expéditeur : l’adresse IP d’expédition est en effet effacée. Par contre, les archives Ubuntu sont mises à disposition directement en format mbox3, format natif d’une boîte de messages électroniques.

Ces détails ne sont pas que techniques dans la mesure où ils influencent aussi la nature du corpus constitué, les conséquences deviennent méthodologiques voire heuristiques. Dans le cas des archives en format HTML, la reconstitution des fils nécessite une traduction par un programme. Tandis que dans le cas des archives MBOX, les fils sont lisibles directement par le logiciel de messagerie sans intermédiaires. Étant donné que nous partons d’une approche ethnographique et participante, l’approche utilisateur est privilégiée à partir du logiciel Mutt : un format natif est donc privilégié de manière à reconstituer les fils de discussion avec le logiciel utilisé par les contributeurs (Mutt est le logiciel principalement utilisé par les contributeurs de ce collectif). Nous avons donc constitué un nouveau corpus à partir des archives usenet (Gmane) qui ont l’intérêt de pouvoir reconstruire facilement le format natif (Mbox) des archives4. À partir de ce nouveau corpus Debian5, une macro du logiciel Mutt a permis d’extraire les fils de discussion sans faire appel à un autre logiciel extérieur à la pratique des contributeurs6.

Après une croissance continue, le nombre de messages par an décroît progressivement et le nombre de fils diminue corrélativement. Mais est-ce pour autant le signe de moins de discussions ? Le nombre de sujets différents décroît mais, pour autant, le nombre de messages par fil de discussion augmente année après année (Figure 3). Le nombre de messages par an diminue mais le nombre de messages par fil de discussion augmente. Comment expliquer ce paradoxe d’un moindre « usage » des listes électroniques ?

Figure 3 : Évolution annuelle de la quantité de fils de discussion (nombre de messages > 1) par année et par liste et nombre de messages par fil de discussion.

Même si plusieurs interprétations concurrentes du phénomène de baisse de contributions annuelles peuvent être défendues nous montrons qu’un moindre intérêt peut être nuancé. L’évolution de la quantité de fils par période diminue mais le nombre de messages par fil augmente. En outre, le nombre de nouveaux inscrits sur la liste Debian est constant (le cumul est en augmentation constante7 ), nous ne pouvons donc pas inférer un moindre intérêt pour les discussions sur les listes. Ce phénomène reste encore à être analyser étant donné que le nombre moyen de messages par fil est un indicateur trop peu robuste pour satisfaire la validation de notre hypothèse structurale. Le taux de production étant insuffisant, il convient d’étudier les interactions locales au sein des fils de discussion.

Nous émettons l’hypothèse qu’il existe un phénomène non pas quantitatif mais qualitatif (relationnel) propre au fil de discussion, dont il convient d’estimer son évolution à partir de la structure des interactions. De nouveaux indicateurs doivent être créés pour mieux analyser l’évolution des fils de discussion. Pour créer ces indicateurs, une meilleure compréhension du fil de discussion comme processus doit être mis en œuvre.

Longueur et profondeur des fils

Comment étudier l’évolution des discussions en ligne à partir de la structure des interactions des contributeurs ? Cette question suppose que l’on s’interroge sur la nature de cette structure sous plusieurs angles différents :

1. Deux collectifs peuvent-ils être spécifiés par une différence entre la structure de leurs interactions en ligne ?

2. Comment s’exprime l’évolution diachronique de la structure de ses interactions au cours du temps ?

3. Est ce que l’évolution de la morphologie de la structure des interactions dépend des individus eux-mêmes ou des sujets abordés ?

Ces trois autres questions conduisent à voir la dynamique d’extension d’un réseau au travers de ses interactions locales, sous forme de micro-réseaux qui augmentent leur taille ; l’évolution de la taille pouvant agir sur la forme du réseau lui-même et sur sa transformation.

Pour étudier ces variations, des champs spécifiques des « headers » ont été prélevés : « Message-ID et « References ». À partir de ces données, les messages électroniques ont été collectés liste par liste. Ainsi la profondeur moyenne des fils de discussion a pu être analysée sur une longue durée.

Figure 4 : À gauche : méthode pour calculer la profondeur moyenne. À droite : profondeur moyenne des fils de discussion par année et par liste électronique (Debian)

Tout d’abord, la profondeur moyenne d’un fil de discussion est évaluée de façon diachronique (Figure 4). L’évaluation de la profondeur moyenne de tous les fils de discussion et de toutes les listes par année indique une stabilité dans le temps et par liste de discussion. Ce simple constat permet d’écarter l’hypothèse nulle qui suggère une évolution aléatoire de la structure des fils de discussion.

La liste politique, Debian Vote, accueille toutes les discussions liées à l’élection annuelle du leader. La taille moyenne de ses fils suit une évolution conjoncturelle qui dépend des débats internes et des sujets évoqués ; ceux-ci peuvent en effet fournir un support intéressant pour des entretiens d’explicitation avec les contributeurs.

Les listes de développeurs et d’usagers suivent une évolution similaire : une lente croissance progressive et une stabilisation sur les dernières années. Nous interprétons la croissance progressive comme un apprentissage collectif des formes des fils. La stabilisation signifie qu’au-delà d’une certaine taille le fil devient illisible. Il est intéressant de noter que ces évolutions, en particulier pour les listes d’usagers, sont indépendantes de la langue. Que la langue soit anglophone ou francophone, la profondeur moyenne des fils par année est la même. Aussi, la profondeur moyenne des listes des experts est supérieure à la profondeur moyenne des listes des utilisateurs. Donc la profondeur moyenne des fils semble correspondre à différents niveaux d’expertise indépendamment de la langue pratiquée sur la liste.

Le contrôle de la forme des interactions permet d’établir le mode d’existence et de reconnaissance d’un collectif au travers de son mode de collaboration en ligne. La forme des interactions évolue dans le temps en passant par une phase d’apprentissage ou de recrutement. Ces formes permettent de différencier les espaces de discussion. On peut effectivement remarquer8 que les participants à chacune des listes ne sont pas les mêmes, les frontières entre listes étant importantes. Ces différences corroborent notre observation mais pas complètement. En effet, les différentes listes de discussion sont spécialisées et leurs contributeurs également. Il devient alors difficile de qualifier ce qui est en commun puisque les différences sont surtout mises en valeur. A ce point de l’analyse, le collectif Debian se constitue d’un amoncellement de structures d’interactions différentes.

Barycentre d’un fil de discussion

Comment décrire l’évolution d’un même collectif dans le temps du fait de l’évolution diachronique de la structure de ses interactions ? Et quel est le sens de ces évolutions pour une « communauté » ? La profondeur moyenne d’un fil n’est pas suffisante pour appréhender la stricte structure du réseau puisque la moyenne lisse les différences structurales. Un nouvel indicateur est donc créé (Formule 3).

Pour calculer le barycentre, les informations contenues dans les « headers » des messages ont été mobilisés. Ce champs dépend de trois paramètres principaux : le client mail utilisé par les contributeurs pour lire et écrire les messages, la manière dont le contributeur s’insère dans un fil de discussion mais aussi la manière dont l’organisation archiveles messages. Ces trois paramètres limitent la pertinence du barycentre mais il peut être utile pour indiquer la construction des fils en réseau.

Un fil est rigoureusement un arbre hiérarchique orienté dont les noeuds sont les messages. La position d’un message dans le fil lui confère de fait un poids. Le premier message a un poids nul, le second un poids égal à un, le troisième un poids de 2 si celui-ci suit le précédent de manière filiforme. Si le troisième message répond directement à la question initiale alors un poids de 1 lui est attribué. Le poids du message dépend donc de sa position dans le fil de discussion.

En général, le poids d’un message est égal au message directement précédent incrémenté d’un poids de 1. Donc le barycentre, en tant que centre de masse, peut être calculé comme la somme des messages du fil divisé par la somme des poids attribués plus un. La formule est donc indiquée par la formule ?. En conséquence, un fil strictement en éventail a une valeur égale à 1, un fil strictement filiforme a un index qui tend vers 0. L’index est toujours compris entre 0 et 1.

Cet indicateur calcule le « barycentre » (ou les points de forces pour une analyse sociologie en réseau) d’un fil de discussion en réseau. Son mode de calcul permet de caractériser la structure d’un fil : si le fil est plutôt de forme filiforme ou plutôt de forme en éventail. Il s’agit d’un index puisque l’indicateur est respectivement compris entre 0 et 1. Le « barycentre » tend vers 1 pour les fils plutôt en éventail tandis qu’il tend vers 0 pour les fils plutôt filiformes.

En étudiant l’évolution annuelle de cet indicateur par liste de discussion, il est possible d’observer une évolution commune, une décroissance continue et progressive vers 0. Ainsi la participation dans les fils de discussion différents a ceci de commun que le collectif tend à privilégier une forme particulière d’interaction, vers des fils filiformes.

Figure 5 : Calcul de l’index d’un fil et évolution annuelle des indices par liste de discussion (moyenne des barycentres

Comment interpréter l’évolution de la Figure 5 ? L’étude de l’usage des fils indique comment certains contributeurs utilisent la forme du fil de discussion. Effectivement, la forme visuelle des échanges facilite la coordination [Sack, 2000] et donc la qualité des contributions qui non seulement font la réputation du collectif mais aussi qui lui permettent d’optimiser la répartition de son temps : entre temps de production de connaissances (le développement) et temps de transmission des connaissances (sur les listes électroniques).

Ce point est tellement critique, et structurant, qu’il devient objet à controverses sur les listes politiques spécialement conçues pour les développeurs Debian. En 2012, le leader du projet Debian, élu annuellement, doit alors intervenir9 pour que les attaques ad hominem (flames) ou les glissements hors sujet « trolls » ne polluent pas l’espace de communication. Nous pouvons effectivement noter sur l’illustration ? qu’à partir de 2011, les fils tendent à devenir plus en éventail et moins filiformes ; nous avons une comparaison possible avec l’évolution du barycentre moyen de la liste des utilisateurs francophones. Nous voyons alors ici la pertinence de l’indicateur proposé qui ne fait pas appel à réseau (nominatif) de type h-index [Gómez et al., 2008] en se concentrant uniquement sur les caractéristiques du fil. zack

Figure 6 : Analyse factorielle de correspondances croisant l’index et les termes du sujet des fils de discussion. Logiciels : Tetralogie et DTM-VIC pour la partie Boostrap, test statistique réalisé sur un échantillon aléatoire prélevé sur l’ensemble du corpus Debian. L’analyse factorielle est significative.

Figure 7 : Analyse factorielle de correspondances croisant l’index et les auteurs des messages dans les fils de discussion. Logiciels : Tetralogie et DTM-VIC pour la partie Bootstrap, test statistique réalisé sur un échantillon aléatoire prélevé sur l’ensemble du corpus Debian. L’analyse factorielle est très significative.

Les analyses factorielles de correspondance croisant l’indicateur de structure de fil et les termes du sujet ou les auteurs sont respectivement significatives voire très significatives. En fonction du sujet, voire même de ses participants, la structure du fil tend à adopter une certaine forme particulière.

Cette évolution individuelle corrobore l’observation liste par liste et par niveau d’expertise. Chaque individu, participant aux fils de discussion conserve une position structurale qui fait sa spécificité individuelle et donc son identité. De fait lorsque ces individus se rassemblent par niveau d’expertise (mais aussi sujet d’intérêts, on ne peut le nier), alors les différences se retrouvent agrégées au niveau collectif des listes de discussion. Les différences individuelles tendent à se renforcer entre les experts qui maîtrisent l’art de la coordination dans le fil de discussion et les autres qui répondent selon leur référentiel de lecture du message.

Les développements futurs de cette approche méthodologique visent à typifier les structures de fil par liste et à caractériser les parcours structuraux des individus.

Conclusion

En partant de l’observation locale des usages des listes électroniques, dans quelle mesure, la forme des fils de discussion est-elle significative d’un mode de collaboration expert sur la longue durée [Delanoe et Conein, â paraître] ?

Cet article a tenté de montrer comment la profondeur du fil de discussion, et son barycentre, peuvent être mobilisés pour indiquer le mode de coordination sur des listes différentes au sein des projets de logiciel libre Debian ; avec comme échantillon témoin le projet Ubuntu.

Ainsi, l’index de fil, en tant qu’indicateur de structure, apparaît comme une mesure robuste révélant les différences entre les listes. Les pratiques collaboratives apparaissent dans des listes de langues différentes. Ces tendances peuvent être interprétées pour le collectif Debian : préserver la structure des fils a des implications socio-politiques. C’est pourquoi la méthodologie proposée ne reconstruit pas artificiellement les fils mais les observe tels qu’ils se donnent à voir par les contributeurs. Par ailleurs, la mesure proposée peut aussi être utilisée pour caractériser et différencier le collectif lui-même.

  • L’étude des listes de discussions électroniques sur la longue durée à partir de la mesure proposée permet donc de mettre en valeur trois résultats principaux :

  • L’évolution diachronique de l’index de fil n’est pas aléatoire ce qui permet de rejeter l’hypothèse nulle ;

  • La mesure de structure des fils peut être utilisée pour mesurer les différents niveaux d’expertise des listes indépendamment de la langue utilisée ;

  • Les listes Debian ont en commun de favoriser les fils de discussion filiforme sur la longue durée.

Dans quelle mesure la structure des fils, comme indicateur de contenu, serait si important pour les contributeurs eux-mêmes ? La spécificité du collectif de contributeurs au projet de logiciels libre est de promouvoir le développement d’entraide et de conseils épistémiques en substituant l’autorité d’expertise à l’autorité sociale10. Dans cette perspective, les fils filiformes renversent la règle de la majorité qui est corrélative à une structure en éventail des fils. En effet, la somme des préférences individuelles n’est pas transitive. Ainsi, une discussion électronique ne constitue pas de fait un sondage d’opinions mais un espace de collaboration critique et épistémique. Les contributeurs en ont conscience et contribuent à l’émergence de structures de fils tendanciellement filiformes. Il n’est en effet pas étonnant que le leader du projet Debian soit élu chaque année par une procédure de vote qui prend en compte la hiérarchisation complexe des préférences, en d’autres termes une procédure de vote qui prend en compte le paradoxe de Condorcet.

Bibliographie

Akrich, M. (2012). Les listes de discussion comme communautés en ligne : outils de description et méthodes d’analyse. Technical Report 25, Centre de Sociologie de l’Innovation.

Boltanski, L. and Thévenot, L. (1991). De la justification. Les économies de la grandeur. Gallimard, Paris.

Butler, B. (2001). Membership size, communication activity, and sustainability: A resource-based model of online social structures. Information Systems Research,, 4(12):346–362.

Conein, B. and Latapy, M. (2008). Les usages épistémiques des réseaux de communication électronique : Le cas de l’open-source. Sociologie du travail.

Delanoë, A. et Conein, B (à paraître) Le contrôle de la forme des réseaux par leurs membres : les fils de discussion comme réseaux d’interactions En cours de soumission

Dorat, R. Modélisation de threads de discussion dans une liste de diffusion. Mémoire pour l’obtention du master d’informatique de l’université d’Orsay.

Ducheneaut, N. (2003). The reproduction of Open Source Software programming communities. PhD thesis, University of California, Berkeley.

Ducheneaut, N. (2005). Socialization in an open source software community: A socio-technical analysis. Computer Supported Cooperative Work, 14(4):323–368.

Gómez, V., Kaltenbrunner, A., and López, V. (2008). Statistical analysis of the social network and discussion threads in slashdot. In Proceedings of the 17th international conference on World Wide Web, pages 645–654. ACM.

Lazer, D., Pentland, A., Adamic, L., Aral, S., Barabasi, A.-L., Brewer, D., Christakis, N., Contractor, N., Fowler, J., Gutmann, M., Jebara, T., King, G., Macy, M., Roy, D., and Alstyne, M. V. (2009). Social science: Computational social science. Science, 323(5915):721–723.

Mishne, G. and Glance, N. (2006). Leave a reply: An analysis of weblog comments. In Third annual workshop on the Weblogging ecosystem.

Mondada, L. (1999). Formes de séquentialité dans les courriels et les forums de discussion. une approche conversationnelle de l’inteaction sur internet. Apprentissage des langues et système d’information et de communication, 1(2) :3–25.

Raymond, E. S. (1998). La cathédrale et le bazar. Linux France. Trad. Blondeel, S.

Sack, W. (2000). Conversation map: An interface for very large-scale conversations. Journal of Management Information Systems, 17(3) :73 – 92.

Simmel (1999 [1908]). Sociologie. P.U.F.

Simondon, G. (1958). Du mode d’existence des objets techniques. Aubier.

White, A. C. (2011). Identité et contrôle. Une théorie de l’émergence des formations sociales. EHESS Translations. Traduction Michel Grossetti et Frédéric Godart.

Yeh, J.-Y. and Harnly, A. (2006). Email thread reassembly using similarity matching. In CEAS - Third Conference on Email and Anti-Spam.

Notes

1  Le site Internet Slashdot dans ce cas précis.

2  www.debian.org/MailingLists/

3  https://lists.ubuntu.com/

4  serveur nntp: news.gmane.org

5  • gmane.linux.debian.user, 423 275 messages ;
• gmane.linux.debian.user.french, 174 026 messages ;
• gmane.linux.debian.devel.general, 166 609 messages ;
• gmane.linux.debian.devel.legal, 33 617 messages ;
• gmane.linux.debian.devel.mentors, 54 178 messages ;
• gmane.linux.debian.devel.policy, 14 868 messages ;
• gmane.linux.debian.devel.project, 18 769 messages ;
• gmane.linux.debian.devel.vote, 15 552 messages.

6  Pour le détail de la macro, voir la présentation qui en a été faite à la conférence Debian France http://fr2012.mini.debconf.org/slides/socio-meter-for-debian.pdf

7  http://lists.debian.org/stats/debian-user.png

8  Etude statistique réalisée dans le cadre de l’ANR , No. ANR- 09- 001KRAR .

9  http://lists.debian.org/debian-devel/2012/05/msg00114.html

10  Conein, 2013, Nice University Workshop.

Pour citer ce document

Alexandre Delanoë, «Veille des communautés de logiciels libres : vers un socio-mètre des listes de discussion électroniques», Intelligences Journal [En ligne], Numéro 2 , Numéros en texte intégral , URL : http://lodel.irevues.inist.fr/isj/index.php?id=404

Auteurs

Alexandre Delanoë
Chercheur contractuel à l’EHESS, laboratoire CAMS (Centre d’analyse et de Mathématique Sociales). Chercheur associé à Mines ParisTech, laboratoire CSI (Centre de Sociologie de l’Innovation). Membre de l’Institut des systèmes Complexes de Paris Ile de France. Paris – France. alexandre (at) delanoe (dot) org