Actualités

Communs du numérique et IA : Synthèse de la journée d’étude à la Wikiconvention francophone

L’Institut national de la recherche scientifique (INRS) et Wikimédia Canada publient la synthèse des échanges qui ont eu lieu lors de la journée d’étude Communs du Numérique et IA. Tenue le 1er novembre 2024 à Québec, lors de la WikiConvention francophone, cette journée était organisée par Wikimédia Canada et l’INRS. 

Elle a rassemblé une quarantaine de personnes issues du mouvement Wikimédia (Wikimédia Canada, Wikimédia France, Wikimedia Suisse, Wikimedia Enterprise, Wikimedians of Cameroon User Group), du milieu culturel (Bibliothèque et Archives nationales du Québec, Bibliothèque nationale de France, Printemps numérique), du milieu gouvernemental (ministères de la Culture en France et au Québec), du monde universitaire (CEIMIA, INRS, Université de Montréal) et du milieu de l’IA (pleias, Hugging Face). 

Cette synthèse vise à ouvrir une discussion sur la place des communs numériques, et en particulier les communs de la connaissance, comme ressource de développement des systèmes d’intelligence artificielle (SIA) dans les territoires francophones. Les communs de la connaissance désignent des ressources informationnelles, culturelles ou artistiques produites, partagées et gouvernées collectivement par une communauté autogérée, selon des règles établies par les personnes participantes. Dans l’environnement numérique, un exemple emblématique est constitué par les projets Wikimédia, dont les données ouvertes précieuses pour l’entraînement des modèles d’IA, incluant dans des langues à ressources limitées. 

De même, les fonds patrimoniaux publics (bibliothèques et archives nationales, fonds audiovisuels) sont convoités pour entraîner des IA francophones. Ces fonds et collections revêtent une valeur inestimable en tant que documents historiques et ressources clés pour l’étude et la transmission du patrimoine culturel. Certaines de ces ressources, accompagnées d’ensembles de métadonnées descriptives, sont rendues accessibles sous forme de données ouvertes.

Les fonds patrimoniaux publics et les projets wikimédiens partagent certaines missions et valeurs fondamentales : la préservation du patrimoine collectif, l’accessibilité des ressources, leur potentiel de réutilisation (notamment pour les œuvres dans le domaine public) et leur contribution au bien commun. Dans les deux cas se pose la question des types de relations à construire avec les acteurs de l’industrie de l’IA sur le plan économique, juridique et éthique. La journée Communs du numérique et IA visait à stimuler le dialogue entre les projets Wikimédia et les établissements publics patrimoniaux concernant ces enjeux.

Panel Bibliothèques francophones et corpus d’entraînement des IA – Aristidek5maya – CC BY-SA 4.0

La première partie propose un résumé détaillé des interventions réalisées lors des trois panels, abordant les relations entre Wikimédia et les grands modèles de langage (LLM), le rôle des bibliothèques francophones dans la constitution de corpus d’entraînement pour les SIA, ainsi que la diversité linguistique et culturelle dans les SIA de la francophonie.

La seconde partie propose une synthèse des discussions issues des ateliers, organisée en cinq dimensions principales pour structurer les résultats et les pistes d’action identifiées :
1 – La production des jeux de données
2 – La pluralisation linguistique et culturelle des données et des SIA
3 – La mise en accès des jeux de données 
4 – Les outils juridiques applicables aux jeux de données
5 – Les modèles économiques

Les enjeux et les pistes d’action identifiés dans chacune de ces dimensions ont été regroupés selon les principes suivants : Équité, Souveraineté, Découvrabilité, Utilisabilité, Soutenabilité.

En mutualisant les réflexions et les pistes d’action, il devient possible de concevoir des stratégies d’intervention croisées et de renforcer les dynamiques collectives.

Les échanges et réflexions issus de cette journée d’étude ont permis de mettre en lumière des enjeux stratégiques cruciaux pour les communs de la connaissance face aux défis posés par le développement des SIA. Ces défis nécessitent des actions concertées et structurées autour de cinq axes prioritaires :

Réintermédiation stratégique – Afin de se positionner comme intermédiaire clé, il est essentiel de promouvoir une visibilité proactive des collectifs et organismes chargés de la production et de l’intendance des jeux de données en développant des services d’API et en étant actif sur des plateformes adaptées et fréquentées par les usagers des données.
Documentation des usages – Il est nécessaire de recenser et d’analyser les principaux cas d’utilisation des données issues de Wikimédia et des fonds patrimoniaux, ainsi que les profils des principaux usagers. 
Évaluation des plateformes existantes pour la mise en accès des jeux de données – Une analyse comparée des infrastructures actuelles dédiées à la mise en accès des données permettrait d’évaluer leur pertinence respective en matière de découvrabilité, de qualité de la documentation des jeux de données, de traçabilité des usages, de modes de gouvernance et de coûts d’investissement.
Production d’un référentiel de pratiques – La création d’un guide partagé des pratiques exemplaires contribuerait à harmoniser les approches et à renforcer les capacités des différents acteurs à produire et diffuser des données dans un objectif de service public et de bien commun.
Plaidoyer et coalition entre les acteurs du libre et les GLAM – Un partage de ressources et d’expertise entre ces acteurs permettrait de mieux défendre les principes de pluralisation culturelle et linguistique et d’équité dans les relations avec les acteurs industriels de l’intelligence artificielle.

Ces axes d’intervention constituent des leviers essentiels pour répondre aux enjeux de souveraineté, de découvrabilité et de soutenabilité des communs numériques. La poursuite de ces efforts requiert un engagement collectif et une vision commune, ancrée dans la valorisation des données comme ressource stratégique au service du bien commun.

La version anglophone de la synthèse sera disponible bientôt.