Lexicométrie : les logiciels

Il n’existe pas de comparaison récente, systématique et accessible de l’ensemble des outils existants dans une perspective de sciences sociales, encore moins d’histoire. Ce qui s’en rapprocherait le plus est cette page (faite par des littéraires, qui a l’avantage de donner des liens vers les sites des logiciels. On peut aussi se référer à une présentation riche et récente d’Alain Dallo sur Hyperbase, Lexico 3, Weblex et Nooj ; à Emmanuel Bonin et Alain Dallo, « Hyperbase et Lexico 3, outils lexicométriques pour l’historien », Histoire & Mesure, XVIII-3/4, 2003, p. 289-311 ; ou, sur Prospero, Trideux, Alceste et Calliope, à Didier Demazière, Claire Brossaud, Patrick Trabal et Karl Van Meter (dir.), Analyses textuelles en sociologie. Logiciels, méthodes, usages, Rennes, PUR, 2006. Thibaut de Saint-Pol propose ici une comparaison rapide de quelques logiciels et un approfondissement sur SPAD-T.

On peut aussi regretter qu’il n’existe pas de logiciel libre réellement performant pour la lexicométrie. Cependant, il semble que des avancées en ce sens sont en cours. Les évolutions récentes du langage de balisage XML (Extensible Markup Language, utilisé pour les sites web depuis les années 2000), en particulier la norme TEI (Text Encoding Initiative), paraissent aller dans le sens d’une convergence entre édition en ligne de textes, notamment manuscrits, et analyse informatique de ces textes, qui se ferait dans le cadre du logiciel libre.

Pendant ce temps, la floraison de logiciels commerciaux de datamining, destinés à la recherche d’informations et la synthèse de textes pour les entreprises, aux interfaces flamboyantes mais qui emploient en partie les mêmes techniques que les logiciels de recherche, accroît régulièrement l’éventail des outils disponible et les difficultés à s’y repérer.

Nous avons indiqué dans le « Repères » pourquoi Hyperbase et Alceste nous paraissent en l’état les outils les plus utiles en histoire et à quel type de corpus chacun pouvait s’appliquer. Hyperbase, conçu par des universitaires, peut être acheté pour un prix assez modique. Alceste, quoiqu’également né au CNRS, est vendu à un prix prohibitif... il faut trouver un laboratoire qui le possède déjà pour l’utiliser ! Dans les deux cas, les collègues qui ont créé les logiciels (Étienne Brunet à Nice et Max Reinert à Versailles-Saint-Quentin) sont en revanche très disponibles pour aider les utilisateurs.

Les autres logiciels, comme Lexico ou SPAD-T, apparaissent plus limités car ils ne permettent pas la lemmatisation ni l’étude des co-occurrences (s’en tenant donc globalement à des comptages). Pour les utilisateurs de SAS, à noter de très belles macros d’Olivier Godechot qui permettent de faire pas mal d’opérations intéressantes sur des textes avec ce logiciel – mais avec les mêmes limites.

Enfin, une troisième famille nous semble poser problème en histoire dans la mesure où elle se fonde sur des regroupements (automatiques ou décidés par l’utilisateur) des mots en grands champs lexicaux. Il ne s’agit là plus d’étudier les mots du texte, mais les choses dont il parle, en somme : c’est un autre traitement ; et quand les regroupements sont faits automatiquement, le risque d’anachronisme est important. Toutefois, ces logiciels peuvent s’avérer utiles dans des cas particuliers. Il s’agit de Prospero (spécialisé dans l’étude de la dynamique de gros corpus hétérogènes concernant des controverses), Tropes et Calliope. Ce dernier s’appelait auparavant Leximappe : voir ici un exemple d’application et ici le compte rendu d’un ouvrage récent utilisant Calliope en histoire, avec une présentation très pédagogique. Il est difficile de trouver en ligne un véritable site pour Calliope, mais on peut sans doute se renseigner auprès de Karl van Meter, qui en connaît très bien l’utilisation.