Indexation iconographique sur Wikidata via JocondeLab

La constitution d’une grande base de données d’œuvres d’art se poursuit sur Wikidata, parmi plein d’autres choses sur ce projet. Le développement est tel que le nombre d’œuvres devient considérable dans certains domaines. Un des challenges actuels est de parvenir à enrichir tous ces jeunes éléments Wikidata afin de disposer non seulement de données pour identifier et retrouver ainsi les œuvres mais aussi d’informations pour les décrire. Cette description des œuvres concerne en particulier l’indexation iconographique, c’est-à-dire le renseignement des éléments représentés. Ces éléments de description nous permettent d’enrichir les notices multilingues d’œuvres d’art et leurs liens vers d’autres ressources documentaires. Cela favorise l’accès à tous aux notices d’œuvres dans de nombreuses langues et offre de nouvelles possibilités de recherche, d’exploration, de découverte, ouvrant ainsi de nouvelles perspectives pour la connaissance et pour le plaisir d’apprécier.

Pour favoriser ce travail d’indexation iconographique, il peut être utile de s’appuyer sur des données déjà disponibles et sur ce plan s’est révélé particulièrement intéressant le projet JocondeLab, qui concerne le liage à DBpedia des éléments de thésaurus des notices d’œuvres de la base Joconde qui porte sur les collections des musées de France.

Vulcain présentant à Vénus des armes pour Enée
Vulcain présentant à Vénus des armes pour Enée, François Boucher, 1747, musée du Louvre
Base Joconde : 000PE000196, Base Atlas : 11554, Wikidata : Q15934578. Dépeint :
carquoiscasquecolombeépéefemmeforgeagehachenuagenuditéoutilputtoVénusVulcain

Sommaire


Aperçu des œuvres d’art visuel sur Wikidata

Aujourd’hui en septembre 2017, le nombre d’éléments œuvres d’art a atteint sur Wikidata des volumes considérables : 264 000 peintures (grâce en particulier à la dynamique du WikiProjet La somme de toutes les peintures), 66 000 sculptures , 15 000 estampes, 38 800 dessins…
L’ensemble de cet important jeu de donnée est constitué essentiellement de notices d’identification composées des données essentielles : la collection, l’auteur, le numéro d’inventaire, les liens vers des ressources d’autorité. Cela permet de différencier, de retrouver des listes d’œuvres par auteur ou collection, de rebondir sur une ressource institutionnelle. Néanmoins au-delà de la zone documentaire minimale, on dispose souvent de peu d’informations complémentaires.


Les œuvres avec image

On peut lier un élément Wikidata à un fichier image de Commons (c’est-à-dire que pour toutes les œuvres hors du domaine public ou sans liberté de panorama, il ne peut y avoir de reproduction). Beaucoup d’éléments manquent encore d’image, soit qu’il n’y a pas d’image sur WikiCommons, soit qu’elles n’ont pas encore été reliées. Pour le moment 75 % des peintures, 80 % des sculptures, 95 % des dessins n’ont pas encore d’image directement liée par la propriété wikidata image/P18.

Pour le liage des éléments Wikidata avec des images de WikiCommons, les outils existent : à la main, autrefois via DBpedia, avec les outils Image suggestions, Harvest Templates, WDFIST ou via Crotos en mode contribution. Peu ou prou cet alignement avance, et l’on dispose déjà d’un volume d’éléments œuvre d’art visuel avec image tout à fait appréciable. Même s’il reste encore beaucoup à compléter, ce qui est aujourd’hui accessible finit par être utilisé et c’est plutôt sur les fonds manquant de reproductions sur WikiCommons que l’on coince. On mesure ici tout l’intérêt des démarches d’ouverture comme l’ont fait le Metropolitan Museum of Art ou plus près de chez nous le Musée des Augustins ou plus récemment encore le musée de Bretagne, parmi d’autres, qui nous montrent aujourd’hui à quel point il est utile, voire nécessaire, et surtout fécond pour les institutions patrimoniales d’ouvrir les contenus.

Achille parmi les filles du roi Lycomède
Achille parmi les filles du roi Lycomède, Nicolas Poussin, vers 1649-50, musée des beaux-arts de Boston
Page sur le site du musée des beaux-arts de Boston, Wikidata : Q20552632. Dépeint :
AchillebijoucasqueDéidamieépéetravestissementUlysse


Les éléments représentés

Sur Wikidata les éléments iconographiques peuvent être exprimés par la propriété dépeint/P180 (ou également dans une moindre pratique et avec certaines limitations par la propriété élément Iconclass représenté/P1257). Il faut reconnaître qu’aujourd’hui les informations d’indexation iconographique sont absentes sur une large majorité des œuvres : aujourd’hui 14 % des peintures, 25 % des sculptures ont au moins 1 un élément dépeint. En d’autres termes sur les 264 000 peintures actuellement sur Wikidata, 228 000 n’ont encore aucune information sur les éléments représentés.

Néanmoins, beaucoup de contributeurs renseignent ces informations. On pense bien sûr à l’ami Coyau qui, avant de s’envoler vers d’autres cieux, nous a régalés d’une indexation riche, foisonnante, aussi rigoureuse que plaisante. Il y a aussi des outils qui peuvent favoriser cette indexation iconographique, par exemple Commons → Wikidata, WD-art Joconde développés par Poulpy. Même un verre rempli à 14% ou 20% sur un tel volume offre déjà un ensemble intéressant, puisqu’il représente respectivement 36 000 peintures et 7000 sculptures avec au moins un élément des description iconographique.

Liste des collections par nombre d'éléments de description (P180 et P1257) sur les œuvres
Liste des collections par nombre d’éléments de description (P180 et P1257) sur les œuvres
(l’exécution de la requêtes dure plus de 40 secondes)

Liste des collections (au moins 50 œuvres) par moyenne d'éléments de description sur les œuvres
Liste des collections (au moins 50 œuvres) par moyenne d’éléments de description sur les œuvres
(l’exécution de la requêtes dure plus de 40 secondes)

En classant les collections par moyenne d’éléments d’indexation des œuvres, on remarque une surreprésentation des musées de France. Cela est dû d’abord à l’action et aux pratiques de contributeurs francophones particulièrement attachés à cette problématique, ainsi qu’aux volumes plus réduits d’œuvres sur Wikidata à la différence des versements massifs qui ont eu lieu pour d’autres musées. Par ailleurs, la collection des peintures du Louvre constitue une exception pour les éléments iconographiques tant en volume qu’en moyenne .
Et cette importance de l’indexation iconographique des collections des musées de France s’est retrouvée renforcée grâce à la réutilisation des données de JocondeLab.


JocondeLab

JocondeLab est un projet, mis en ligne en 2014, du Ministère de la Culture réalisé avec l’IRI, Institut de recherche et d’innovation. JocondeLab offre une version multilingue et enrichie du catologue Joconde en s’appuyant sur DBpedia. DBpedia est une extraction de certaines informations de Wikipedia, contenues dans les infobox, et leur exposition par les technologies du web sémantique (cf. Voyage de DBpedia en Wikidata à bord d’un bot, octobre 2013).

Ainsi une partie des données du catalogue Joconde ont été alignées avec les entrées Wikipédia, via DBpedia.

Extrait de la notice 00190022878 sur Joconde
Extrait de la notice 00190022878 sur Joconde

Extrait de la notice 446243 sur JocondeLab
Extrait de la notice 446243 sur JocondeLab
Les éléments en cartouche bleue sont ceux alignés avec DBpedia, dont ils restituent le libellé.

Il y a quelque mois lors d’une réunion de cabale wikimédienne –on buvait des coups au bar, quoi–, la discussion est arrivée sur ce projet et l’idée a émergé que ces alignements DBpedia de Joconde sur JocondeLab pourraient très bien servir à renseigner l’indexation iconographique des éléments œuvres d’art sur Wikidata.

En effet, depuis un alignement réalisé sur le projet JocondeLab il est possible de déduire un alignement avec Wikidata :

  • Entité thésaurus Joconde -> Entrée DBpedia
  • Entrée DBpedia -> Page Wikipédia
  • Page Wikipédia -> Élément Wikidata

Donc par inférence :

  • Entité thésaurus Joconde -> Élément Wikidata

Assez vite il est apparu que la partie était jouable, sans trop de difficultés techniquement mais avec une nécessaire réédition documentaire.

Le départ pour la promenade
Le départ pour la promenade, Pieter de Hooch, 1665, musée des beaux-arts de Strasbourg, Q20005936. Dépeint :
chiencolonnecouplefenêtrenourricenourrissonpalais royal d’Amsterdam


Réédition documentaire des alignements

Remarquons tout d’abord, que pour JocondeLab tout n’a pas été aligné. À la fois en raison des difficultés (les suggestions automatiques achoppent souvent) et tout simplement car les possibilités d’alignement avec DBpedia sont bien plus faibles qu’avec Wikidata, en particulier pour les créateurs.
On remarquera en revanche l’excellente qualité de l’alignement Joconde -> DBpedia avec un taux d’erreur rencontré largement sous les 1%. Même s’il a fallu le reprendre, on avait un très bon jeu de données initial.

Quand on veut réutiliser des données dans un autre contexte éditorial que celui de leur cadre initial de production et d’utilisation, il est presque toujours nécessaire de les retravailler. Et pour s’en convaincre on pourra toujours lire le lumineux billet de Jeni Tennison, Five Stages of Data Grief. À partir d’un jeu de 12 000 termes d’alignement Joconde -> Wikidata, obtenu automatiquement et regroupant créateurs et indexation iconographique, il a fallu procéder aux habituelles étapes de validation / correction / rejet. Et en effet, dans le cadre de cette réutilisation des alignements de JocondeLab avec Wikidata, sont apparues plusieurs difficultés :

  • les impasses sémantiques (particulièrement en zoologie et botanique)
    Un alignement peut avoir été fait sur une page de Wikipédia, considérée « page d’homonymie » sur Wikidata et qui du coup n’a pas de libellés en d’autres langues, ni de liens vers d’autres Wikipédias, ni généralement d’informations structurées autre que « page d’homonymie ». Par exemple l’alignement Rouge-gorge (Wikipédia/DBpédia), Q3443160, qui n’existe que sur la Wikipédia francophone, a été redirigé vers rouge-gorge familier (Wikipédia/DBpédia), Q25334, qui a 91 liens vers les Wikipédias.
  • les glissements sémantiques
    Il y a théoriquement bijection entre Wikipédia (fr) et DBpedia (fr). Pour JocondeLab l’alignement a été sur un jeu de donnée DBpedia a un moment donné et Wikipédia a continué d’évoluer. Ainsi la page Auguste Dumont désignait à une époque seulement le sculpteur mais comme 2 autres Auguste Dumont sont arrivés depuis, la page alignée sur JocondeLab est devenue page d’homonymie, et l’alignement a été rectifié vers Q179725, Auguste Dumont (sculpteur).
  • les catégorisations différentes
    Autoportrait qui est parfois placé en élément iconographique sur JocondeLab a été recaractérisé pour être utilisé sur Wikidata avec la propriété genre artistique/P136
  • les indexations inadéquates à Wikidata
    Plusieurs types d’indexation ont été rejetés car ils ne correspondent pas à l’approche éditoriale sur Wikidata, par exemple : communes pour les créateurs (ex : Sarreguemines), des listes pour les qualités (ex : Liste des ducs de Berry).

Bref, il ne s’agissait pas de corriger un jeu de données qui a toute sa qualité et sa cohérence dans son contexte mais de reprendre si nécessaire les alignements pour l’injection des données dans le contexte éditorial de Wikidata. Tout ce travail de réédition des données, représentant assurément la plus grosse partie de la charge, a pris un certain temps et même un temps certain. (cf. l’article de Jenni Tennison Five Stages of Data Grief cité précédemment). À vrai dire la passe mériterait sans doute d’être améliorée car il est parfois nécessaire de se plonger dans les exemples pour bien mesurer la pertinence de certains éléments ou des alignements, et cela n’a pu être fait systématiquement.

Bon au final, on a un beau paquet de données prêtes à réutiliser.

Lumière du soleil dans le salon III
Lumière du soleil dans le salon III, Vilhelm Hammershøi, 1905, Nationalmuseum (Stockholm)
Page sur le site du Nationalmuseum, Europeana, Wikidata : Q18601106. Dépeint :
canapéchaiselumière du soleilpeinturesalon


Édition massive sur Wikidata

Dans l’immédiat on ne peut pas réutiliser tout le jeu de données. Pour une raison simple : il n’y a a « que » 8000 œuvres avec identifiants Joconde sur Wikidata et JocondeLab porte sur 550 000 œuvres.
Du coup la première tâche a constitué à enrichir l’existant sur Wikidata. De deux manières :

  • si l’élément iconographique manque, il est ajouté et sourcé en référence comme affirmé dans/propriété P248 : JocondeLab/Q29633776 ;
  • si l’élément iconographique est déjà présent, on ajoute la référence pour consolider la qualité de la donnée sur Wikidata.

Automatisation de l’édition

Comme on l’a vu, les éléments œuvres d’art sur Wikidata sont en développement. Ainsi régulièrement de nouvelles œuvres avec identifiant Joconde sont ajoutées ou parfois c’est simplement l’identifiant qui est ajouté sur l’élément existant. Il devient alors possible de réutiliser le jeu de données d’indexation iconographique. Et c’est qui se passe, de façon automatique.

ShonagonBot scanne quotidiennement les entrées de Joconde sur Wikidata. Si un identifiant Joconde est renseigné sur un élément, seront ajoutés automatiquement les indexations iconographiques récoltées précédemment sur cette entrée Joconde via JocondeLab. On peut en avoir un aperçu sur la liste des contributions.

Ça se passe un peu après minuit sous nos longitudes.

La Diligence à Lanslebourg
La Diligence à Lanslebourg, Louis Guy, 1857, musée des beaux-arts de Chambéry
Joconde : 10480004188, JocondeLab : 265028, Wikidata : Q38619668. Dépeint :
chevalchienclocherdiligenceLanslebourg-Mont-Cenismontagnepaysageporcvillage


Réutilisations de l’indexation iconographique

On a vu que sur Wikidata la proportion d’œuvres d’art avec éléments de description, même si elle progresse, est encore faible. Pourtant étant donné le volume d’ensemble, ce jeu de données n’en est paradoxalement pas moins riche et il est d’ores et déjà possible de jouer avec. Alors, jouons !

Sur le projet Crotos, il est possible de naviguer par indexation, notamment sur les descriptions iconographiques, en tenant compte des sous-classes. Cela signifie qu’une recherche sur instrument de musique amènera les instruments à vent ou les instruments à cordes. Avec l’indexation iconographique, on peut rechercher, par exemple, en croisant avec d’autres critères, les représentations de barques dans les peintures de la première moitié du 17e siècle.
La partie Lab de Crotos offre une liste classée par occurrences des éléments d’indexation iconographique. C’est l’occasion de se rendre compte qu’il y a tout un chantier en construction sur les ontologies dans Wikidata.
La partie Cosmos de Crotos permet également de découvrir les œuvres par les catégorisations et offre par exemple la possibilité de se promener dans les « dépeint ».

Navigation aléatoire dans les dépeints sur Cosmos / Crotos
Navigation aléatoire dans les indexations iconographiques sur Cosmos de Crotos

L’Endpoint SparQL de Wikidata permet de faire des recherches plus élaborées en croisant avec les autres données dans un champs élargi des domaine de la connaissance (un des grands intérêts de Wikidata). Quelques exemples de recherches d’œuvres d’art par l’indexation iconographique :

Wikidata est un base documentaire extraordinaire encore toute jeune et qui agrège très largement des données structurées et riches dans des domaines très variés. Beaucoup s’y fait, beaucoup peut y être fait. Il y a assurément de nouvelles voies à explorer dans la contribution, comme dans la réutilisation et la recherche, ouvrant de nouvelles et bienheureuses perspectives.

Enjoy!