✓ Les peintures du Louvre sur Wikidata

Depuis les débuts de Wikipédia, c’est à dire bien avant Wikidata, les collections du musée du Louvre suscitent un intérêt majeur. Actuellement il y a plus de 2300 articles Wikipédia dans une centaine de langues portant sur œuvre du musée du Louvre. Sur Wikimedia Commons, les fichiers sont si nombreux que l’on se perd presque dans les méandres des catégories.

Sur Wikidata, côté œuvres d’art, les collections du Louvre ont également suscité très vite un intérêt tout aussi important. C’est d’ailleurs un des rares musées sur Wikidata dont les œuvres sont liées aux départements de collection, en phase avec les contextes de conservation, et pour lesquelles une localisation par salle a été adoptée.

La Mort d'Adonis
La Mort d’Adonis, Lambert Sustris, 4e quart du 16e siècle, musée du Louvre
Base Joconde : 00000081414, Base Atlas : 22896, Wikidata : Q18573194.

Depuis février 2015, une localisation des œuvres par arborescence des salles du musée du Louvre est présentée sur Crotos avec les données de Wikidata. En septembre 2015, un billet était publié sur comment localiser les peintures d’artistes femmes au Louvre grâce à Wikidata.

Continuant sur cette belle dynamique, et alors qu’il y a avait déjà plus de 1700 peintures du Louvre sur Wikidata, avec Poulpy, on s’est dit que ça serait chouette d’intégrer sur Wikidata toutes les œuvres du département des peintures. Ainsi fut fait, non sans difficultés.

À partir des données d’identification récupérées de Joconde, il nous a fallu, comme d’habitude, procéder à de nombreux traitements des données :

  • l’identification et le marquage par identifiant Joconde de toutes les œuvres déjà présentes sur Wikidata, pour éviter les doublons,
  • la rééditions des titres (originellement en capitales),
  • les auteurs doivent correspondre sur Wikidata à un autre élément. Il y a donc eu un alignement à faire puis une phase de recherche et création des éléments manquants. Ce fut bien long mais tout l’intérêt de Wikidata se révéla ici encore, puisque sur les environ 1500 artistes, seulement 10 n’ont pu être identifiés clairement, conduisant à un taux d’alignements supérieur à 99%.
  • la gestion des « d’après » ou « attribués » a été adaptée à Wikidata,
  • les périodes, et dates approximatives, très courantes, ont été converties dans la syntaxe normalisée ISO-8601 de Wikidata avec les échelles adéquates (année, décennie ou siècle) et les éventuels qualificatifs pas avant/P1319 et pas après/P1326,
  • la distinction au niveaux des matériaux et techniques s’est faite entre les matériaux, propriété P186, et les techniques, propriété P2079,
  • la gestion des collections et localisations qui ne se recoupent pas toujours,
  • les différentes dimensions (dont les diamètres) ont été prises en compte,
  • les natures complémentaires de certaines œuvres (exemple, polyptyque) ou plus précises (exemple, peinture murale),
  • le renseignement de la propriété image/P18 avec les fichiers disponibles sur Wikimedia Commons,
  • l’alignement avec la base Atlas du Louvre,
  • la localisation par salle a été faite en complément avec la base Atlas.

Certaines données se sont révélées trop difficiles à reprendre, comme lieu d’exécution/utilisation, et ont été mises de côté.
Par ailleurs, via JocondeLab, une bonne partie de l’indexation iconographique a pu être récupérée, comme expliqué dans ce précédent billet sur l’indexation iconographique sur Wikidata via JocondeLab.

Bref, ce très gros travail de réédition des données nous a pris un bon moment… pour nous offrir un bien beau résultat. Il manque a priori encore quelques centaines de peintures, les localisations seraient à améliorer, certaines données présentes depuis longtemps sur Wikidata, comme les dates, gagneraient à être reprises avec les évolutions éditoriales, les éléments peuvent être encore largement complétés. M’enfin, c’est une édition en continu et ne boudons pas notre plaisir ; on dispose désormais sur Wikidata d’un jeu de plus 5500 œuvres du département des peintures du Louvre, dont plus de 2000 avec image.

Diane sortant du bain
Diane sortant du bain, François Boucher, 1742, musée du Louvre
Base Joconde : 000PE000201, Base Atlas : 11515, louvre.fr : notice, Wikidata : Q3556817.

Avec toutes ces données de Wikidata sur les peintures du Louvre, il est possible de faire de nombreuses recherches, de rebondir sur d’autres ressources, d’analyser statistiquement le corpus, de se balader dans les œuvres par des critères s’appuyant sur les possibilités offertes par Wikidata et WikiCommons. En voici juste un petit aperçu :

… et encore plein d’autres choses auxquelles vous penserez et que vous aurez le plaisir d’explorer et de découvrir.

Enjoy!

Tivoli, les jardins de la Villa d'Este
Tivoli, les jardins de la Villa d’Este, Jean-Baptiste Camille Corot, 1843, musée du Louvre
Base Joconde : 000PE000635, Base Atlas : 8947, Wikidata : Q3529956.

Textes d’Affiches, des films à lire sur Gallica

Un week-end de novembre en 2016 se déroulait un hackathon à la BnF. Notre groupe, composé d’Aliénor, Anna, Benoît, Karl, Liberté, Moustafa, Nicolas, s’était consacré à un projet sur les adaptations littéraires en films. La procrastination étant, il aura fallu 6 mois pour finaliser le projet, sorti en mai 2017, et 5 mois de plus pour écrire ce billet.

Le pitch : Textes d’Affiches est une interface qui met en relation directe les films avec les œuvres littéraires adaptées, accessibles sur Gallica. Inversement à partir de livres accessibles sur Gallica on peut en retrouver les adaptations cinématographiques.
Les affiches sont récupérées de la base OMDb, les données de mise en relation de Wikidata et data.bnf.fr.

Textes d'Affiches
Textes d’Affiches

Par exemple, Textes d’Affiches met en relation Barry Lyndon, le film de Stanley Kubrick, avec le roman de William Makepeace Thackeray Mémoires de Barry Lyndon lisible sur Gallica :

Barry Lindon

Dans l’autre sens, on peut vouloir retrouver les adaptations de L’Île mystérieuse de Jules Verne :

L'Île mystérieuse - Jules Verne

La fabrique documentaire

L’essentiel en un schéma :

Schéma de Textes d'Affiches

Exemple avec Barry Lyndon :

Exemple de Textes d'Affiches

La récolte des donnée va s’appuyer sur 2 requêtes SparQL : l’une sur l’Endpoint de Wikidata, l’autre sur celui de data.bnf.fr.

Dans Wikidata, il y a des éléments ayant en nature film. Les films peuvent avoir la propriété basé sur/P144 renseignée les liant à d’autres éléments de Wikidata. Ces autres éléments liés peuvent être des livres ou des œuvres littéraires, et celles-ci peuvent avoir la propriété identifiant BnFbasé sur/P268 renseigné. Du coup, on peut faire une relation entre un élément film et l’identifiant BnF de l’œuvre adaptée.
Et hop, une requête SparQL pour récupérer le tout :

SELECT DISTINCT ?film ?IMDb (GROUP_CONCAT(DISTINCT  ?IDBnF; separator=";") as ?IDsBnF)
WHERE {
  ?film wdt:P31/wdt:P279* wd:Q11424.
  # on recherche des éléments ayant nature film/Q11424 ou une sous-classe
  ?film wdt:P144 ?oeuvre.
  # "basé sur"/p144 une oeuvre, propriété 
  {?oeuvre wdt:P31/wdt:P279* wd:Q571} UNION {?oeuvre wdt:P31/wdt:P279* wd:Q7725634}
  # l'oeuvre a en nature livre/Q571 ou oeuvre littéraire/Q7725634 (ou sous-classe)
  ?oeuvre wdt:P268 ?IDBnF.  # l'oeuvre a un idenfiant BnF/propriété P268
  ?film wdt:P345 ?IMDb # le film a un identfiant IMDb
}GROUP BY ?film ?IMDb

requête SparQL sur Wikidata

Cette requête fournit une liste de résultats avec 3 données :

  • l’identifiant Wikidata d’un film . Exemple : Q471716
  • l’identifiant IMDb de ce film. Exemple : tt0072684
  • l’identifiant BnF du livre (ou œuvre littéraire) adapté. Exemple : cb16737670b

    [NB : du point de vue FRBR, on cherche des œuvres dans le catalogue de la BnF]

Sur les éléments films sur Wikidata, la propriété IMDb (Internet movie database) peut être renseignée. Cet identifiant fait autorité dans les bases de films et nous permet via l’API OMDb (Open movie database) de récupérer des images d’affiches.

Maintenant qu’on a des films avec affiches et adaptations littéraires identifiés sur Wikidata, on va chercher via data.bnf.fr les livres correspondants en accès sur Gallica.
Et hop, une deuxième requête SparQL :

SELECT DISTINCT ?gallica WHERE {
  ?manif rdarelationships:workManifested
  <http://data.bnf.fr/ark:/12148/cb16737670b#frbr:Work>;
  # cb16737670b est l'identifant changé à chaque requête
         rdarelationships:electronicReproduction ?gallica
}LIMIT 1

requête SparQL sur data.bnf.fr

Cette requête fournit à partir d’un identifiant œuvre (FRBR) une manifestation (FRBR) numérisée. La requête est exécutée pour chaque œuvre récupérée comme adaptation littéraire depuis Wikidata. S’il n’y a pas de numérisation accessible, le film est mis de côté et ne sera pas restitué.

On remarque ici tout l’intérêt du chantier de FRBRisation du catalogue actuellement en cours à la BnF, réalisé dans le cadre de la transition bibliographique. Ce sont bien les concepts d’œuvre et de manifestation au sens FRBR et leur articulation qui sont les rouages essentiels permettant ce liage sémantique entre films et livres à lire.

Les requêtes fédérées

Pour trouver les unités documentaires du projet, on a utilisé 2 requêtes SparQL. Dans la philosophie du web sémantique, une seule aurait pu suffire. Et justement l’Endpoint de Wikidata permet les requêtes fédérées. Malheureusement l’Endpoint de data.bnf.fr ne permet pas encore ce type de requêtes tierces. Souhaitons que cela soit prochainement possible. Non seulement parce que cela correspond à l’idée et aux attentes du web sémantique, mais surtout car cela serait une belle opportunité, pour faciliter certaines choses auxquelles nous avons pensé et également pour celles que d’autres créeront et auxquelles nous n’aurions sans doute jamais pensé, et qui en seront d’autant favorisées.

Maintenant qu’on a les identifiants de toutes les unités documentaires désirées, on récupère toutes les informations de notice sur Wikidata par négociation de contenu et on compile le tout.

Le service web se décompose en 2 parties :

  • Une API, yolo
  • Une interface utilisateur

La documentation de l’API présente les différentes possibilités de requête. Elle est disponible avec le code source sur Github : https://github.com/zone47/tda.
Il est par exemple possible avec l’API de récupérer les adaptions d’Othello de Shakespeare : http://zone47.com/tda/api/?type=books&q=Q26833.

L’interface web a été développée par Karl Pineau et le code source est aussi sur Github : https://github.com/KarlPineau/TextesdAffiches/

Bilan


Un grand merci aux équipes de la BnF pour un accueil et une orga au top, #HackathonBnF

Tout d’abord, le projet n’a été possible que grâce à l’œuvre de Coyau côté Wikidata. Il a amorcé la pompe documentaire, puis renseigné énormément de déclarations basé sur/P144 pour les adaptations cinématographiques et nous a fait découvrir, entre autres, tout plein d’adaptations des Trois mousquetaires. Il a également renseigné sur de très nombreux éléments films de Wikidata des versions visibles en ligne sur Internet Archive, WikiCommons ou Youtube. Pour une vingtaine de films dans Textes d’Affiches, on peut ainsi accéder à leur visionnage en ligne, comme par exemple pour L’Étroit Mousquetaire (1922) de Max Linder accessible sur Commons.

Adaptations des Trois Mousquetaires d'Alexandre Dumas
Les Trois Mousquetaires à lire sur Gallica, avec ses adaptations – Merci Coyau :’-)

Avant de se lancer, un petit sondage préalable dans les données et leur liage avait révélé qu’il y avait a priori matière à faire quelque chose. Les aléas du hackathon étant, le projet n’avait pu aboutir dans le temps du week-end. Heureusement il a été repris ensuite et une version fonctionnelle a pu être publiée.

Si la mise en relation fonctionne plutôt bien, plusieurs achoppements sont apparus :

  • parfois le document littéraire est en fait un fichier audio,
  • le lien n’est pas toujours direct dans les cas de recueil,
  • l’ontologie déduite des sous-classes de l’élément film/Q11424 sur Wikidata dérive un peu par rapport à l’attendu (même si, ma foi, l’effet de bord est plutôt appréciable),
  • toutes les images ne sont pas des affiches,
  • ces affiches ne sont pas souvent en français,
  • plus globalement le projet ne gère pas le multilinguisme.

Bref il aurait fallu plus travailler au traitement et à la réédition des données (comme d’habitude) et sans doute que l’interface pourrait être améliorée.

Malgré cela, les processus automatiques ont bien fonctionné, les notices sont bien remplies, Wikidata et data.bnf.fr ont chacune parfaitement joué leur rôle, on a pu faire ressortir des livres sur Gallica et en trouver des adaptions cinématographiques ; l’essentiel voulu y est et ça marche.

L’idée de départ pour Textes d’Affiches était de créer une interface mettant en relation directe deux objets familiers, l’affiche de film et le livre. Il y avait une volonté de squeezer au maximum les « interfaces documentaires ». Il reste la porte institutionnelle, le périmètre restreint, le flot d’informations, les interfaces de recherche pour ceux qui savent ce qu’ils peuvent trouver derrière, les longues listes de résultats à scanner, à filtrer, tout autant de barrières invisibles qui, malgré les meilleures volontés du monde, limitent l’accès aux œuvres. Il s’agissait de penser une interface qui décloisonne les domaines par des liens directs entre les œuvres, efface délibérément l’institutionnel, en ne gardant que les contenus dans un contexte d’usage centré sur des pratiques communes, voir des affiches et lire des livres. S’effacer pour faire voir, se liquéfier par les données pour mieux circuler et irriguer.

Enjoy!

Indexation iconographique sur Wikidata via JocondeLab

La constitution d’une grande base de données d’œuvres d’art se poursuit sur Wikidata, parmi plein d’autres choses sur ce projet. Le développement est tel que le nombre d’œuvres devient considérable dans certains domaines. Un des challenges actuels est de parvenir à enrichir tous ces jeunes éléments Wikidata afin de disposer non seulement de données pour identifier et retrouver ainsi les œuvres mais aussi d’informations pour les décrire. Cette description des œuvres concerne en particulier l’indexation iconographique, c’est-à-dire le renseignement des éléments représentés. Ces éléments de description nous permettent d’enrichir les notices multilingues d’œuvres d’art et leurs liens vers d’autres ressources documentaires. Cela favorise l’accès à tous aux notices d’œuvres dans de nombreuses langues et offre de nouvelles possibilités de recherche, d’exploration, de découverte, ouvrant ainsi de nouvelles perspectives pour la connaissance et pour le plaisir d’apprécier.

Pour favoriser ce travail d’indexation iconographique, il peut être utile de s’appuyer sur des données déjà disponibles et sur ce plan s’est révélé particulièrement intéressant le projet JocondeLab, qui concerne le liage à DBpedia des éléments de thésaurus des notices d’œuvres de la base Joconde qui porte sur les collections des musées de France.

Vulcain présentant à Vénus des armes pour Enée
Vulcain présentant à Vénus des armes pour Enée, François Boucher, 1747, musée du Louvre
Base Joconde : 000PE000196, Base Atlas : 11554, Wikidata : Q15934578. Dépeint :
carquoiscasquecolombeépéefemmeforgeagehachenuagenuditéoutilputtoVénusVulcain

Sommaire


Aperçu des œuvres d’art visuel sur Wikidata

Aujourd’hui en septembre 2017, le nombre d’éléments œuvres d’art a atteint sur Wikidata des volumes considérables : 264 000 peintures (grâce en particulier à la dynamique du WikiProjet La somme de toutes les peintures), 66 000 sculptures , 15 000 estampes, 38 800 dessins…
L’ensemble de cet important jeu de donnée est constitué essentiellement de notices d’identification composées des données essentielles : la collection, l’auteur, le numéro d’inventaire, les liens vers des ressources d’autorité. Cela permet de différencier, de retrouver des listes d’œuvres par auteur ou collection, de rebondir sur une ressource institutionnelle. Néanmoins au-delà de la zone documentaire minimale, on dispose souvent de peu d’informations complémentaires.


Les œuvres avec image

On peut lier un élément Wikidata à un fichier image de Commons (c’est-à-dire que pour toutes les œuvres hors du domaine public ou sans liberté de panorama, il ne peut y avoir de reproduction). Beaucoup d’éléments manquent encore d’image, soit qu’il n’y a pas d’image sur WikiCommons, soit qu’elles n’ont pas encore été reliées. Pour le moment 75 % des peintures, 80 % des sculptures, 95 % des dessins n’ont pas encore d’image directement liée par la propriété wikidata image/P18.

Pour le liage des éléments Wikidata avec des images de WikiCommons, les outils existent : à la main, autrefois via DBpedia, avec les outils Image suggestions, Harvest Templates, WDFIST ou via Crotos en mode contribution. Peu ou prou cet alignement avance, et l’on dispose déjà d’un volume d’éléments œuvre d’art visuel avec image tout à fait appréciable. Même s’il reste encore beaucoup à compléter, ce qui est aujourd’hui accessible finit par être utilisé et c’est plutôt sur les fonds manquant de reproductions sur WikiCommons que l’on coince. On mesure ici tout l’intérêt des démarches d’ouverture comme l’ont fait le Metropolitan Museum of Art ou plus près de chez nous le Musée des Augustins ou plus récemment encore le musée de Bretagne, parmi d’autres, qui nous montrent aujourd’hui à quel point il est utile, voire nécessaire, et surtout fécond pour les institutions patrimoniales d’ouvrir les contenus.

Achille parmi les filles du roi Lycomède
Achille parmi les filles du roi Lycomède, Nicolas Poussin, vers 1649-50, musée des beaux-arts de Boston
Page sur le site du musée des beaux-arts de Boston, Wikidata : Q20552632. Dépeint :
AchillebijoucasqueDéidamieépéetravestissementUlysse


Les éléments représentés

Sur Wikidata les éléments iconographiques peuvent être exprimés par la propriété dépeint/P180 (ou également dans une moindre pratique et avec certaines limitations par la propriété élément Iconclass représenté/P1257). Il faut reconnaître qu’aujourd’hui les informations d’indexation iconographique sont absentes sur une large majorité des œuvres : aujourd’hui 14 % des peintures, 25 % des sculptures ont au moins 1 un élément dépeint. En d’autres termes sur les 264 000 peintures actuellement sur Wikidata, 228 000 n’ont encore aucune information sur les éléments représentés.

Néanmoins, beaucoup de contributeurs renseignent ces informations. On pense bien sûr à l’ami Coyau qui, avant de s’envoler vers d’autres cieux, nous a régalés d’une indexation riche, foisonnante, aussi rigoureuse que plaisante. Il y a aussi des outils qui peuvent favoriser cette indexation iconographique, par exemple Commons → Wikidata, WD-art Joconde développés par Poulpy. Même un verre rempli à 14% ou 20% sur un tel volume offre déjà un ensemble intéressant, puisqu’il représente respectivement 36 000 peintures et 7000 sculptures avec au moins un élément des description iconographique.

Liste des collections par nombre d'éléments de description (P180 et P1257) sur les œuvres
Liste des collections par nombre d’éléments de description (P180 et P1257) sur les œuvres
(l’exécution de la requêtes dure plus de 40 secondes)

Liste des collections (au moins 50 œuvres) par moyenne d'éléments de description sur les œuvres
Liste des collections (au moins 50 œuvres) par moyenne d’éléments de description sur les œuvres
(l’exécution de la requêtes dure plus de 40 secondes)

En classant les collections par moyenne d’éléments d’indexation des œuvres, on remarque une surreprésentation des musées de France. Cela est dû d’abord à l’action et aux pratiques de contributeurs francophones particulièrement attachés à cette problématique, ainsi qu’aux volumes plus réduits d’œuvres sur Wikidata à la différence des versements massifs qui ont eu lieu pour d’autres musées. Par ailleurs, la collection des peintures du Louvre constitue une exception pour les éléments iconographiques tant en volume qu’en moyenne .
Et cette importance de l’indexation iconographique des collections des musées de France s’est retrouvée renforcée grâce à la réutilisation des données de JocondeLab.


JocondeLab

JocondeLab est un projet, mis en ligne en 2014, du Ministère de la Culture réalisé avec l’IRI, Institut de recherche et d’innovation. JocondeLab offre une version multilingue et enrichie du catologue Joconde en s’appuyant sur DBpedia. DBpedia est une extraction de certaines informations de Wikipedia, contenues dans les infobox, et leur exposition par les technologies du web sémantique (cf. Voyage de DBpedia en Wikidata à bord d’un bot, octobre 2013).

Ainsi une partie des données du catalogue Joconde ont été alignées avec les entrées Wikipédia, via DBpedia.

Extrait de la notice 00190022878 sur Joconde
Extrait de la notice 00190022878 sur Joconde

Extrait de la notice 446243 sur JocondeLab
Extrait de la notice 446243 sur JocondeLab
Les éléments en cartouche bleue sont ceux alignés avec DBpedia, dont ils restituent le libellé.

Il y a quelque mois lors d’une réunion de cabale wikimédienne –on buvait des coups au bar, quoi–, la discussion est arrivée sur ce projet et l’idée a émergé que ces alignements DBpedia de Joconde sur JocondeLab pourraient très bien servir à renseigner l’indexation iconographique des éléments œuvres d’art sur Wikidata.

En effet, depuis un alignement réalisé sur le projet JocondeLab il est possible de déduire un alignement avec Wikidata :

  • Entité thésaurus Joconde -> Entrée DBpedia
  • Entrée DBpedia -> Page Wikipédia
  • Page Wikipédia -> Élément Wikidata

Donc par inférence :

  • Entité thésaurus Joconde -> Élément Wikidata

Assez vite il est apparu que la partie était jouable, sans trop de difficultés techniquement mais avec une nécessaire réédition documentaire.

Le départ pour la promenade
Le départ pour la promenade, Pieter de Hooch, 1665, musée des beaux-arts de Strasbourg, Q20005936. Dépeint :
chiencolonnecouplefenêtrenourricenourrissonpalais royal d’Amsterdam


Réédition documentaire des alignements

Remarquons tout d’abord, que pour JocondeLab tout n’a pas été aligné. À la fois en raison des difficultés (les suggestions automatiques achoppent souvent) et tout simplement car les possibilités d’alignement avec DBpedia sont bien plus faibles qu’avec Wikidata, en particulier pour les créateurs.
On remarquera en revanche l’excellente qualité de l’alignement Joconde -> DBpedia avec un taux d’erreur rencontré largement sous les 1%. Même s’il a fallu le reprendre, on avait un très bon jeu de données initial.

Quand on veut réutiliser des données dans un autre contexte éditorial que celui de leur cadre initial de production et d’utilisation, il est presque toujours nécessaire de les retravailler. Et pour s’en convaincre on pourra toujours lire le lumineux billet de Jeni Tennison, Five Stages of Data Grief. À partir d’un jeu de 12 000 termes d’alignement Joconde -> Wikidata, obtenu automatiquement et regroupant créateurs et indexation iconographique, il a fallu procéder aux habituelles étapes de validation / correction / rejet. Et en effet, dans le cadre de cette réutilisation des alignements de JocondeLab avec Wikidata, sont apparues plusieurs difficultés :

  • les impasses sémantiques (particulièrement en zoologie et botanique)
    Un alignement peut avoir été fait sur une page de Wikipédia, considérée « page d’homonymie » sur Wikidata et qui du coup n’a pas de libellés en d’autres langues, ni de liens vers d’autres Wikipédias, ni généralement d’informations structurées autre que « page d’homonymie ». Par exemple l’alignement Rouge-gorge (Wikipédia/DBpédia), Q3443160, qui n’existe que sur la Wikipédia francophone, a été redirigé vers rouge-gorge familier (Wikipédia/DBpédia), Q25334, qui a 91 liens vers les Wikipédias.
  • les glissements sémantiques
    Il y a théoriquement bijection entre Wikipédia (fr) et DBpedia (fr). Pour JocondeLab l’alignement a été sur un jeu de donnée DBpedia a un moment donné et Wikipédia a continué d’évoluer. Ainsi la page Auguste Dumont désignait à une époque seulement le sculpteur mais comme 2 autres Auguste Dumont sont arrivés depuis, la page alignée sur JocondeLab est devenue page d’homonymie, et l’alignement a été rectifié vers Q179725, Auguste Dumont (sculpteur).
  • les catégorisations différentes
    Autoportrait qui est parfois placé en élément iconographique sur JocondeLab a été recaractérisé pour être utilisé sur Wikidata avec la propriété genre artistique/P136
  • les indexations inadéquates à Wikidata
    Plusieurs types d’indexation ont été rejetés car ils ne correspondent pas à l’approche éditoriale sur Wikidata, par exemple : communes pour les créateurs (ex : Sarreguemines), des listes pour les qualités (ex : Liste des ducs de Berry).

Bref, il ne s’agissait pas de corriger un jeu de données qui a toute sa qualité et sa cohérence dans son contexte mais de reprendre si nécessaire les alignements pour l’injection des données dans le contexte éditorial de Wikidata. Tout ce travail de réédition des données, représentant assurément la plus grosse partie de la charge, a pris un certain temps et même un temps certain. (cf. l’article de Jenni Tennison Five Stages of Data Grief cité précédemment). À vrai dire la passe mériterait sans doute d’être améliorée car il est parfois nécessaire de se plonger dans les exemples pour bien mesurer la pertinence de certains éléments ou des alignements, et cela n’a pu être fait systématiquement.

Bon au final, on a un beau paquet de données prêtes à réutiliser.

Lumière du soleil dans le salon III
Lumière du soleil dans le salon III, Vilhelm Hammershøi, 1905, Nationalmuseum (Stockholm)
Page sur le site du Nationalmuseum, Europeana, Wikidata : Q18601106. Dépeint :
canapéchaiselumière du soleilpeinturesalon


Édition massive sur Wikidata

Dans l’immédiat on ne peut pas réutiliser tout le jeu de données. Pour une raison simple : il n’y a a « que » 8000 œuvres avec identifiants Joconde sur Wikidata et JocondeLab porte sur 550 000 œuvres.
Du coup la première tâche a constitué à enrichir l’existant sur Wikidata. De deux manières :

  • si l’élément iconographique manque, il est ajouté et sourcé en référence comme affirmé dans/propriété P248 : JocondeLab/Q29633776 ;
  • si l’élément iconographique est déjà présent, on ajoute la référence pour consolider la qualité de la donnée sur Wikidata.

Automatisation de l’édition

Comme on l’a vu, les éléments œuvres d’art sur Wikidata sont en développement. Ainsi régulièrement de nouvelles œuvres avec identifiant Joconde sont ajoutées ou parfois c’est simplement l’identifiant qui est ajouté sur l’élément existant. Il devient alors possible de réutiliser le jeu de données d’indexation iconographique. Et c’est qui se passe, de façon automatique.

ShonagonBot scanne quotidiennement les entrées de Joconde sur Wikidata. Si un identifiant Joconde est renseigné sur un élément, seront ajoutés automatiquement les indexations iconographiques récoltées précédemment sur cette entrée Joconde via JocondeLab. On peut en avoir un aperçu sur la liste des contributions.

Ça se passe un peu après minuit sous nos longitudes.

La Diligence à Lanslebourg
La Diligence à Lanslebourg, Louis Guy, 1857, musée des beaux-arts de Chambéry
Joconde : 10480004188, JocondeLab : 265028, Wikidata : Q38619668. Dépeint :
chevalchienclocherdiligenceLanslebourg-Mont-Cenismontagnepaysageporcvillage


Réutilisations de l’indexation iconographique

On a vu que sur Wikidata la proportion d’œuvres d’art avec éléments de description, même si elle progresse, est encore faible. Pourtant étant donné le volume d’ensemble, ce jeu de données n’en est paradoxalement pas moins riche et il est d’ores et déjà possible de jouer avec. Alors, jouons !

Sur le projet Crotos, il est possible de naviguer par indexation, notamment sur les descriptions iconographiques, en tenant compte des sous-classes. Cela signifie qu’une recherche sur instrument de musique amènera les instruments à vent ou les instruments à cordes. Avec l’indexation iconographique, on peut rechercher, par exemple, en croisant avec d’autres critères, les représentations de barques dans les peintures de la première moitié du 17e siècle.
La partie Lab de Crotos offre une liste classée par occurrences des éléments d’indexation iconographique. C’est l’occasion de se rendre compte qu’il y a tout un chantier en construction sur les ontologies dans Wikidata.
La partie Cosmos de Crotos permet également de découvrir les œuvres par les catégorisations et offre par exemple la possibilité de se promener dans les « dépeint ».

Navigation aléatoire dans les dépeints sur Cosmos / Crotos
Navigation aléatoire dans les indexations iconographiques sur Cosmos de Crotos

L’Endpoint SparQL de Wikidata permet de faire des recherches plus élaborées en croisant avec les autres données dans un champs élargi des domaine de la connaissance (un des grands intérêts de Wikidata). Quelques exemples de recherches d’œuvres d’art par l’indexation iconographique :

Wikidata est un base documentaire extraordinaire encore toute jeune et qui agrège très largement des données structurées et riches dans des domaines très variés. Beaucoup s’y fait, beaucoup peut y être fait. Il y a assurément de nouvelles voies à explorer dans la contribution, comme dans la réutilisation et la recherche, ouvrant de nouvelles et bienheureuses perspectives.

Enjoy!

Lettre au musée Sigma à propos de la refonte de son site web

[Note : Le nom du musée a été changé. Les URLs sont fictives, sauf la dernière.]

[Mise à jour, 18 décembre 2015 : Le musée a répondu. La reprise des anciennes URLs était complexe et difficile à mettre en œuvre, surtout avec les moyens limités dont le musée dispose. Par ailleurs, le musée est sensible à ces questions et y travaille. Espérons que le musée ajoutera prochainement un nouveau système avec URLs garanties simples et pérennes et nous nous ferons une joie d'en profiter.]

Je m’excuse de ne pas me joindre au concert de louanges mais je vous avoue avoir été plutôt attristé par le nouveau site du musée Sigma.

En effet, côté collections, il y a un souci, un gros souci même : la pérennité des anciennes URLs n’a pas été assurée (2 exemples : http://www.museesigma.fr/xx/xxxxxxxxxx/xxxxxxxxx-xxx-xxxxxxxxxx/xxxxxxxx/xxxx/MQXAAAAAEAAD_xxxxxxxxxx-xxxxxxx/xxxxx/xxx.xxxx.x.x.html ou http://www.museesigma.fr/xx/xxx/xxxxxxxx.xxxx?x=x&x=xx.xxxx.x.xx ) et le nouveau système d’URLs est quelque peu désappointant. D’abord, ce sont au moins bien des centaines de liens présents ailleurs qui ne renvoient plus à la bonne ressource. Ne serait-ce que sur Wikimedia Commons de très nombreuses œuvres renvoyaient vers la notice correspondante du musée. Il ne reste plus rien ; c’est d’une tristesse :(

Certes le précédent système de gestion des URLs n’était pas des meilleurs. Cependant le problème avait déjà été signalé sur l’ancienne version –via la page de contact–, avec même une suggestion de solution à mettre en œuvre, et si malheureusement aucune réponse n’avait été retournée, surtout l’on pouvait espérer que l’enjeu serait pris en compte pour la refonte… Et quand bien même cela n’aurait pas été signalé, la pérennité des ressources numériques demeure au cœur des problématiques du web, et de façon particulièrement primordiale pour les institutions patrimoniales, dépositaires de mémoire et transmetteuses de connaissances.

Dans la nouvelle version, soit on n’a pas d’URL associée à une ressource, dans les parcours mis en avant, soit l’URL a une forme longue et complexe, avec même des crochets, ce qui n’est ni satisfaisant ni guère rassurant quand on voit comment l’ancien système vient d’être sabré.

Ça serait vraiment chouette que vous fassiez quelque chose pour améliorer l’identification web des ressources du musée Sigma, selon le principe simple “une ressource” <-> “une URL simple et garantie pérenne”. Effort dont la qualité et la valorisation des ressources seraient bien évidemment les premières bénéficiaires.

Et la solution ne serait pas forcément compliquée à mettre en œuvre.

Si on prend l’URL suivante

http://www.museesigma.fr/xx/xxxxxxxx-xxx-xxxxxxxxxxx/?xx_xxxxxxxxxxxxx_xxxxxxxx[xxxxxxxxxx]=x&xx_xxxxxxxxxxxxx_xxxxxxxx[xxxxxx]=644302&xx_xxxxxxxxxxxxx_xxxxxxxx[xxxxxx]=xxxx&xx_xxxxxxxxxxxxx_xxxxxxxx[xxxxxxxxxx]=xxxx

elle pourrait avoir un permalien, signalé sur la page, du genre

http://www.museesigma.fr/oeuvre/644302

et un système de redirection pourrait facilement effectuer la redirection dans l’architecture actuelle, ainsi que dans les suivantes. Bien sûr il conviendrait globalement de définir une politique des URLs avec de bons identifiants pérennes. Ça n’a rien de sorcier, l’architecture du web est parfaitement adaptée à cela.

Comble de l’ironie, le site comprend une rubrique sur le thème du développement durable alors que paradoxalement avec l’absence de pérennité des ressources c’est bien le chemin inverse qui a été pris côté numérique. Et pour finir sur un bel horizon, une invitation à lire ce lumineux billet de Karl Dubost : un site web de 1000 ans http://www.24joursdeweb.fr/2012/un-site-web-de-1000-ans/ .

En espérant très sincèrement que vous rattraperez le coup,

Bien à vous,
B.