Â
La bibliométrie s’est développée comme un outil auxiliaire de la science au XXe siècle. Les publications scientifiques sont devenues un objet d’études statistiques permettant de mesurer les activités de recherche et d’analyser la science « en train de se faire ».
Fondée sur les travaux d’Eugene Garfield, chimiste et linguiste américain, dans les années 1950, elle est traditionnellement adossée à deux bases de données bibliographiques : le Web of Science et Scopus.
Eugene Garfield a, le premier, utilisé les citations présentes dans les articles scientifiques pour lier les articles entre eux. Il crée en 1960 l'Institute for Scientific Information (ISI) qui développe des bases de données bibliographiques couvrant des milliers de revues scientifiques. Le premier volume du Science Citation Index (SCI) paraît en 1964. Dans la référence d’un article, sont recensés les articles cités par cet article et ceux qui le citent, permettant aux chercheurs de naviguer entre les publications à partir de ces chaînes de citations. Sur le même principe ont été constituées les bases Social Sciences Citation Index (1956), et Arts and Humanities Citation Index (1975), fédérées avec le Science Citation Index dans le Web of Science (WoS). Un rapport annuel, le Journal Citation Reports, établit pour chacune des revues dépouillées un facteur d’impact qui est le nombre moyen de citations par article publié dans cette revue.
Les outils bibliométriques
WoS
Le Web of Science, pionnier de la bibliométrie, a longtemps été produit par Thomson Reuters. Cédé fin 2016 à un fond d’investissement, il fait désormais partie d’une nouvelle société, Clarivate Analytics. Deux  évolutions récentes sont à signaler : un nouvel index a été créé, l’Emerging Sources Citation Index, qui dépouille près de 7 000 revues. Un partenariat avec Impactstory a permis d’ajouter un nouveau filtre pour identifier les publications en Open Access, issues des revues hybrides ou des archives institutionnelles dans leur version « acceptée » ou « publiée ».
Associé au WoS, le module InCites d’analyse bibliométrique propose plus de 200 indicateurs permettant de décrire les activités scientifiques dans un domaine ou d’identifier les spécificités de la recherche d’une institution.
Scopus
L’autre grande base de données bibliographiques et de citations est Scopus, produite par l’éditeur Elsevier depuis 2004 et complétée par SciVal, instrument d’analyse et de comparaison, et ScienceDirect, plateforme de périodiques en ligne.
Elsevier souhaite intégrer d’autres activités scientifiques que les publications : brevets, financements, récompenses, événements, etc., et a mis au point des modules comme les Trends et les Competencies. Ces nouvelles techniques utilisent le big data et permettent de mesurer les activités de recherche d’une institution ou d’un pays et d’identifier les thèmes émergents. Ces algorithmes de « research intelligence » ont été développés en partenariat avec des universités comme l’Université Keio au Japon. C’est aussi en collaboration avec des groupes d’universités anglaises, américaines et australiennes qu’a été construit un nouveau système d’indicateurs, les Snowball metrics, afin d’évaluer les impacts économiques de la recherche universitaire et de repérer ses sources de financement.
L’évolution parallèle de ces grandes plateformes est de signaler non seulement les articles, mais aussi les autres types de publications scientifiques, livres, rapports, communications, conférences, recension de livres, etc. ; de diversifier les domaines référencés en indexant des revues de sciences sociales et de sciences humaines et d’élargir à d’autres langues leur couverture documentaire même si la langue anglaise est toujours prédominante. Mais l’inégalité de traitement selon les disciplines et les langues est toujours un obstacle à l’exhaustivité des corpus de ces bases et pèse donc sur la qualité des analyses qu’elles rendent possibles.
Clarivate Analytics et Elsevier commercialisent leurs services et sont confrontés à la concurrence de services gratuits : Google Scholar et Microsoft Academic.
Google Scholar
Le plus ancien, Google Scholar lancé par Google en 2004, recense les articles, les livres, les thèses, les communications et toutes sortes de contributions scientifiques dans toutes les disciplines, y compris les sciences humaines et sociales pour lesquelles il est sans doute le plus complet. Il donne accès au texte intégral des publications lorsqu’il est disponible, par exemple via la plateforme Google Books. Un service particulièrement dédié aux bibliothèques permet de signaler aux lecteurs les ressources présentes dans leur bibliothèque, Library Links.
Google Scholar fournit de très nombreux résultats mais ne permet pas de les organiser pour en faciliter l’exploitation, de les trier selon différents critères ou de les filtrer. Certains logiciels, comme Publish or Perish, utilisent néanmoins les données de Google Scholar et les retraitent pour proposer des services bibliométriques aux chercheurs.
Microsoft Academic
Plus récemment, en juin 2016, Microsoft a ouvert Microsoft Academic. Fondé sur le moissonnage du web par le moteur de recherche Bing, ce service associe la recherche sémantique à des données largement comparables à celles de Google Scholar en termes de couverture disciplinaire, de nombre de publications et de citations, mais aussi à celles du WoS et de Scopus en termes de structuration et de possibilités de traitement. Il offre en effet de multiples fonctions de tri, des facettes pour les auteurs, les affiliations, les disciplines, les revues et les conférences, et un filtre par tranche de dates. Chaque référence présente, en plus des publications citées et citantes, les publications reliées (par un algorithme de « similarité »), les sources où la publication est signalée, et permet d’accéder au texte intégral, selon les droits d’accès des utilisateurs lorsqu’il n'est pas en Open access. Ces sources vont des plateformes des éditeurs aux pages personnelles des auteurs en passant par les réseaux académiques et les archives institutionnelles.
I4OC et CrossRef
Il faut mentionner également l’Initiative for open citation (I4OC) fondée en avril 2017 entre autres par Wikimedia Foundation, PLOS, eLife et DataCite. Les données concernant les citations (références des publications citées) déposées dans Crossref par quelque 1000 éditeurs scientifiques alimentent le service Cited By. Partant du constat que très peu des éditeurs rendent ces données accessibles publiquement, les porteurs de cette initiative souhaitent en promouvoir l’ouverture. Un éditeur pourra rendre disponibles les citations identifiées par un DOI (identifiant unique du document) dont il gère le préfixe. Elles seront alors exploitables via une API.
En janvier 2018, d’après I4OC, le pourcentage de références « ouvertes » est passé de 1% à plus de 50%. Mais seulement 41% des références de publications dans Crossref comportent les données des citations. Et à peine plus de la moitié d’entre elles ont un DOI.
BIRD et HAL
La qualité des données (complétude et fiabilité) est effectivement l’un des principaux enjeux de ces services de fourniture de données bibliographiques et le fondement de toute réutilisation et interopérabilité souhaitées par les promoteurs de l’Open data.
La constitution de corpus exhaustifs dont les données ont été vérifiées (en particulier en ce qui concerne les affiliations) est un préalable à l’analyse bibliométrique. Les archives institutionnelles présentent un grand intérêt de ce point de vue, que l’on prenne comme exemples celle de l’Université Paris-Dauphine, BIRD, ou l’archive nationale HAL. Elles permettent d'intégrer toutes sortes de contributions scientifiques, des documents de travail, des preprints, des communications sans actes publiés.
Altmetrics
Car l'édition scientifique change et ses fonctions traditionnelles, la sélection de contenus validés par des comités de lecture et la diffusion des revues, sont bousculées par Internet, les réseaux sociaux académiques et les plateformes collaboratives pour le peer-reviewing qui changent la donne. Les chercheurs peuvent diffuser leurs papiers et communiquer leurs résultats de recherche sans intermédiaire, les partager, les discuter, les commenter. Avec l’Open access, leur visibilité augmente.
À ces nouveaux modes de publication, correspondent de nouvelles pratiques qui vont bien au-delà de la citation.  De nouveaux indicateurs viennent compléter les indicateurs traditionnels : les mesures alternatives d'impact, ou altmetrics. Ils évaluent l’impact d’une publication sur Internet  en temps réel en la repérant sur les media sociaux (Facebook, Twitter, Linkedin, Reddit, Google+), des sites de blogs, des plateformes comme YouTube, Wikipedia, GitHub, Slideshare, Vimeo, des réseaux académiques comme Mendeley, etc.
Ces indicateurs sont regroupés sous forme de petits visuels qui peuvent être intégrés à n'importe quel site web ou plateforme documentaire. Des services gratuits sont proposés aux chercheurs qui souhaitent accéder aux données et peuvent intégrer l’outil dans la barre de leur navigateur :
- PlumX répartit ses chiffres en 5 catégories : usage (nombre de consultations, de téléchargements, etc.), captures (signets, favoris), mentions (dans des blogs ou de nouveaux articles),  media sociaux (like et partages de Facebook, tweets) et citations.
Chacune de ces catégories est visualisée par une couleur et un cercle dont l’importance varie selon le nombre de résultats. PlumX a été acheté à EBSCO début 2017 par Elsevier qui l’a intégré à Scopus et en assure la diffusion commerciale.
- Le fournisseur Altmetric propose de visualiser « l'attention » portée à une publication dans un « beignet » aux couleurs changeantes selon les différents types de sources analysées. En plus de sources déjà citées, Altmetric analyse les forums de peer-review comme Pubpeer et Publons et la reprise dans la presse du contenu d'une publication de recherche.
Pour analyser les activités de recherche et leur impact, qu’il soit scientifique ou social, la tendance générale est de les cartographier grâce à des outils de visualisation des données. Le Centre for Science and Technology Studies de l’Université de Leiden aux Pays-Bas propose, par exemple, VOSviewer qui permet de construire les schémas des réseaux scientifiques : institutions, chercheurs, revues, publications, citations, etc.
Cette représentation visuelle répond bien à la fois au besoin de synthèse de la masse des données disponibles et à la nécessité de positionner un domaine ou une institution dans le contexte désormais globalisé de la recherche scientifique.