Conseil québécois du théâtre
Projet Wikidata

Projet Wikidata pour les arts de la scène

Le Wikiprojet de coopération internationale pour les arts de la scène s'est déroulé sous forme de workshop en 20220 et 2021.

 

Wikidata VS Wikipédia

Wikipédia est l’encyclopédie numérique la plus reconnue au monde. Grâce à ses valeurs de gouvernance, de rigueur, d’ouverture et multilingue, elle est devenue un des piliers majeurs en termes de découvrabilité numérique. En effet, les algorithmes des moteurs de recherche lui accordent un très haut taux de crédibilité et donc valorisent toute information présente dans l’encyclopédie. Collaborative, gigantesque, libre de droits, elle n’est pourtant qu’une petite partie d’un grand écosystème dédié à la connaissance sous l’égide de la Wikimedia Foundation¹. De cet écosystème très foisonnant se détache de plus en plus un espace cousin très puissant, multilingue, dédié à héberger et rassembler la connaissance dans une base ouverte. Il se nomme Wikidata.

À la différence de sa cousine Wikipédia, qui présente la connaissance du passé sous forme de pages Web traditionnelles, Wikidata est une base de connaissances.² Cette base est destinée à fournir et rendre disponibles aux ordinateurs une source commune de données données liées, multilingues, telles que des informations descriptives et factuelles sur des personnes, des données géographiques, historiques, socio-économiques, scientifiques ou relatives à la Culture. 

Les arts de la scène ont donc toute une place à prendre dans cette base de connaissances en expansion. On pense au théâtre, la danse, l’opéra, le cirque, les comédiens, les professionnels des arts de la scène, les espaces de diffusion, les oeuvres elles-même, etc.  

Le principe organisationnel de la base de connaissances est basé sur un système de triplet RDF : Sujet, prédicat, objet. Par exemple : Othello est une pièce de théâtre. William Shakespeare est l’auteur d’Othello. Othello a été joué la première fois en 1608. Ce modèle permet ainsi d’interrelier les connaissances , à l’image de réseaux neuroneaux produite par le cerveau humain.

Son contenu étant obligatoirement placé sous licence Creative Commons CC0³, elle permet de centraliser les données utilisées par différents projets Wikimedia mais aussi de nourrir les assistants vocaux dans toutes les langues. Les assistants vocaux (Siri, Alexa, etc.) et les infobox de Google sont une révolution qui nous ont fait passer du monde de la recherche à celui de la recommandation. On ne cherche plus, on nous donne UNE réponse. Pour construire cette réponse, les algorithmes ont besoin de données, de connaissances. C’est là que se justifie une présence dans Wikidata. C’est un sésame pour se relier au grand corpus mondial de la Culture, le moyen de reprendre possession de ses propres données en les éditant et les gérant tout en agissant de manière stratégique sur sa découvrabilité numérique.

À propos de ce projet

 

Le CQT en partenariat avec la CAPACOA (Association canadienne des organismes artistiques) jugent important d'accroître la présence des arts de la scène dans Wikidata.

Inspiré par les travaux et recommandations du rapport Un avenir numérique liée pour les arts de la scène, ce projet implique des activités de recherche, de modélisation, de traduction et de contribution d’un jeux de données publiques du CQT sur Wikidata en coopération avec des partenaires internationaux.

Ainsi, des activités de saisie de données, de formation et de mobilisation ont eu lieu de juin 2020 à mai 2021.

Calendrier global du projet

Les raisons du projet Wikidata pour les arts de la scène

Les données stockées dans différentes répertoires et bases de données du milieu théâtral gagnent à se mutualiser, se lier et à être publiées librement dans Wikidata. La présence des événements, des artistes, des organismes, des salles de spectacles, etc. dans la base assure un fort levier pour une meilleure découvrabilité numérique du milieu. Les points forts d’une présence dans Wikidata :

  • L’univers Wikimédia est une des principales sources auxquelles les moteurs de recherche comme Google accordent le plus de légitimité et confiance. « Les données qui sont entreposées sur Wikidata sont libres de droits, ce qui rend possible leur réutilisation et leur connexion avec d’autres ensembles de données ouvertes, dans un écosystème de données liées. » (Isabelle L’Heureux - ADN du CQAM, RAIQ et RCAAQ).
  • L’utilisation des standards du Web et d’une sémantique commune (des critères de description communs à tous) facilitent l’interopérabilité des systèmes et la liaison des données entre elles. 
  • Les valeurs de la transformation numérique sont compatibles avec Wikidata : l’ouverture, la collaboration international et intersectorielle, l’accessibilité des contenus, l’accessibilité d’informations qui appartiennent au domaine public. 
  • Wikidata appartient à la communauté et ne peut être acheté par une entité privée. 
  • Wikidata est multilingue.
  • Il est plus facile de publier des données dans Wikidata que de publier des contenus dans Wikipédia. Les exigences en matière de références y sont moins élevées.

Les grandes activités

Formation d’un groupe de travail international sur Wikidata et les arts de la scène : ce groupe est constitué d’agents de développement numérique, d’intervenants canadiens et d’experts internationaux. Ce groupe jouera à la fois un rôle consultatif et de mobilisation du secteur des arts de la scène.

Le groupe de travail : Wikidata WG - Mandat et composition

Travaux de modélisation et de traduction : Le groupe de travail se réunira en conférence web 8 fois afin d’aborder les enjeux de modélisation, un par un. Chaque rencontre sera précédée d’un travail de recherche et de synthèse, réalisé par une équipe de consultants (La Cogency). Les travaux de suivis et de mise en oeuvre seront aussi réalisés par l’équipe de consultants.

Saisie et intégration de données : le modèle de données sera validé avec des données réelles fournies par les organismes membres du comité consultatif. Nous allons notamment synchroniser et intégrer des données publiques du CQT à Wikidata.

Formation et mobilisation du secteur : l’équipe de consultant.e.s développera des contenus de formation sous licence libre qui seront mis à la disposition du secteur et qui pourront être offerts lors de conférences et événements.

De plus, à compter du 8 juillet 2020, nous organiserons des rencontres bimensuelles par web conférence – en français et en anglais – afin de former et d’encourager le secteur des arts de la scène à effectuer une saisie de données dans Wikidata. Ces conférences web mettront l’emphase sur l’accompagnement individuel des participants pendant que ceux-ci effectuent leur saisie de donnée sur Wikidata.

La valeur ajoutée pour le milieu théâtral de verser ses données sur Wikidata

  • Les géants du web (Apple, Facebook, Amazon, Microsoft et Google) ont tous reconnu Wikimédia comme une source importante pour leurs assistants vocaux.
  • Augmente l’efficacité, la pertinence et le rayonnement des contenus culturels recherchés sur le web par le grand public 
  • Une réponse fiable et pérenne à la tendance de la recherche “one-click” 
  • Alimente un graphe de connaissances qui n’appartient à aucune entité privée 
  • Alimente l’intelligence artificielle (les robots du web) qui organisent les résultats des moteurs de recherche et/ou des assistants vocaux 
  • Met en valeur les informations pertinentes à propos des événements, des artistes et organismes 
  • Permet à chacun de pouvoir contrôler ses données en les maintenant à jour avec simplicité et dans toutes les langues.
  • Il est plus facile de publier des données dans Wikidata que de publier des contenus dans Wikipédia. Les exigences en matière de références y sont moins élevées.

Importation de jeux de données du CQT dans Wikidata

Outre que la saisie manuelle, il est possible de faire un don de données à Wikidata. Dans le cadre de ce projet et pour aider à la visibilité du milieu théâtral sur le web - le CQT importera un jeux de données publiques à partir de ses deux bases de données : les membres du CQT et les productions inscrites sur Coup d’oeil

Les informations versées sur Wikidata seront celles qui sont déjà publiques, c’est-à-dire, celles qui se retrouvent déjà sur le web, sur vos pages web ou encore, sur une affiche de théâtre ou un programme de spectacle. 

En illustrant spécifiquement, les informations saisies seront : 

 

Le projet Wikidata pour les arts de la scène: derrière les coulisses!

LaCogency, la firme de service-conseil en médias numériques associée au projet, a eu accès a eu accès aux données des membres individuels et professionnels du CQT. Les premières données extraites ont été recueillies dans un fichier Excel, puis nettoyées de toutes informations confidentielles.

Avec ce premier lot, la firme a publié 2353 éléments distincts directement dans Wikidata, dont 1638 personnes et 715 organisations. Autant d’artistes, de compagnies, de théâtres, d’auteurs et de productions d’ici ont été enfin actualisés dans la plus grande base de connaissance ouverte au monde. Chaque élément référencé possède dorénavant un identifiant unique, qui peut être réutilisé sur large échelle. 

En parallèle, CAPACOA et LaCogency ont chapeauté un travail de modélisation collectif. L’objectif? Arrimer la préparation du catalogue du CQT aux possibilités descriptives offertes par Wikidata. Ce travail a été conduit grâce à la participation d’un comité international réunissant autant des spécialistes de la donnée que des domaines des arts de la scène, mis en place dans le cadre de l’initiative Linked Digital Future - Un avenir numérique lié pour les arts de la scène.

Le travail sur les données du CQT a permis de s’assurer que ces dernières présentaient les valeurs minimales recommandées en termes de structure pour leur assurer une bonne découvrabilité. Pour soutenir la recherche et surtout les réponses de bonne qualité, il est aussi fondamental de retirer toute ambiguïté autour d’une personne, d’un lieu ou d’une œuvre plongée dans Wikidata. 

La quête d’homonymie, afin de différencier des personnes ou tout autre élément présents dans Wikidata qui porteraient le même nom, a été l’un des enjeux majeurs. C’est dans cette phase que des spécialistes de la transformation de la donnée, connaisseurs de l’univers Wikidata, sont intervenus. Le travail de nettoyage de la donnée brute est très minutieux : ça prend du temps et des savoirs spécifiques.

« La modélisation c’est casser un verre en 1000 morceaux et s’assurer que la machine puisse recomposer le verre avec ces 1000 morceaux, tel qu’il était avant de tomber! » - Véronique Marino (LaCogency). 

Or, les éléments générés dans Wikidata se présentent sous forme de fiche, qu’il faut enrichir si on veut rendre l’information encore plus complète. C’est ainsi que ces 2353 éléments ont généré plus de 14 000 données descriptives, avec une moyenne d’environ 6 informations différentes par élément.  

En même temps, CAPACOA et le Conseil québécois du théâtre (CQT) ont initié une série de neuf ateliers Zoom pour aider le milieu à comprendre et à profiter des avantages et des bénéfices de Wikidata. Depuis que ces 2353 éléments ont été créés, 1400 actions ont été posées sur les données publiées. Ce chiffre se réfère à l’ensemble des saisies manuelles effectuées par les partecipant.e.s à nos ateliers d’initiation. Ces rencontres guidées ont permis à nos « apprentis de la donnée » non seulement de s’approprier Wikidata, mais aussi de bonifier les informations insérées avec des corrections, des mises à jour et des ajouts.

 

Données publiques et consentement

Puisque les données versées sur Wikidata sont d’ordre publique et existent déjà sur le web : ce projet ne porte aucun enjeux ou bris de privacité, données personnelles ou droits d’auteur. 

Toutefois, si vous en tant qu’individu, artiste, praticien.ne des arts de la scène ou votre compagnie de théâtre ne souhaite pas être inclus dans notre liste de données - écrivez-nous un courriel avec votre refus à developpement@cqt.qc.ca 

À tout moment et pour toutes vos questions, communiquez avec l’agente de développement numérique du CQT Raffaela Siniscalchi developpement@cqt.qc.ca 

Crédits
© Copyright 2024 | Tous droits réservés. Conseil québécois du théâtre.