Les enjeux du web sémantique

Les enjeux du web sémantique

⊕ Yannick Maignien, « Les enjeux du web sémantique », dans Michael E. Sinatra, Marcello Vitali-Rosati (dir.), Pratiques de l’édition numérique (édition augmentée), Presses de l’Université de Montréal, Montréal, 2014, isbn : 978-2-7606-3592-0, https://www.parcoursnumeriques-pum.ca/1-pratiques/chapitre5.html.
version 1, 01/03/2014
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

Le web change et, avec lui, changent les enjeux de l’éditorialisation. Ainsi, nous sommes passés du web statique des origines (1.0) au web participatif (2.0), puis au web sémantique (3.0) qui permet aux machines de comprendre la signification des données et de mieux les exploiter. Nous considérons que le passage au web sémantique est un enjeu majeur. Dans ce domaine, ce sont nos choix qui détermineront la structuration des connaissances dans le futur. Ce passage n’est pas neutre et comporte une série de questionnements politiques, philosophiques, économiques, sociaux et techniques. C’est pourquoi plusieurs chapitres de ce livre sont dédiés à cette question. L’objectif de celui-ci est d’établir une présentation théorique de cette problématique.

Le www, une toile de documents

Dès 1989, Tim Berners-Lee souhaite régler un problème de travail collaboratif sur des documents distribués au sein du CERN (Organisation européenne pour la recherche nucléaireSitué en Suisse, le CERN (l’Organisation européenne pour la recherche nucléaire) est l’un des plus grands centre de physique des particules du monde.
Voir aussi « D’Internet au web » d’Alain Mille.↩︎. Comment accéder à l’information de milliers de documents hétérogènes, dans des formats divers, sur des systèmes d’exploitation différents, et faisant diversement référence les uns aux autres ? Autrement dit, comment appliquer à une communauté de travail (les membres du CERN) dispersée en de nombreux lieux du monde une technique d’hypertexte déjà existante ? La notion d’hypertexte était en effet déjà mise en œuvre, suite aux travaux de Ted Nelson (l’idée d’un univers de documents liés, le DocuverseTerme créé par Ted Nelson en 1974, Docuverse est une bibliothèque électronique mondiale qui distribue des métadocuments.↩︎, par exemple avec des logiciels comme HypercardVendu en mars 2004, Hypercard a été parmi les premiers systèmes hypermédias qui ont connu du succès avant le World Wide Web.↩︎ sur les Macintosh. Mais manquait alors l’espace commun où naviguer entre ces documents distants, organisé selon une architecture « client/serveurs ». Pour cela il fallait mettre en place un protocole commun, HTML (HyperText Markup Language)Le HTML (HyperText Markup Language), créé par Tim Berners-Lee pour le World Wide Web, est un langage de balisage permettant d’écrire de l’hypertexte.
Voir aussi « Les formats » par Viviane Boulétreau et Benoît Habert.↩︎, protocole issu lui-même des langages de structuration de documents (SGML)Le SGML, (Standard Generalized Markup Language), est un langage de description à balises de norme ISO (ISO 8879:1986).↩︎. Par ailleurs, il fallait un protocole standard de transport de l’information sur Internet : le HTTP (Hypertext Transfert Protocol)Conçu pour le World Wide Web, le HTTP (Hypertext Transfert Protocol) est un protocole de communication client-serveur.
Voir aussi « Les protocoles d’Internet et du web » par Jean-Philippe Magué.↩︎. Telles sont, avec l’adresse URLLes URL (Uniform Resource Locato) constituent un sous-ensemble des URI (Uniform Resource Identifier).
Voir aussi « Les protocoles d’Internet et du web » par Jean-Philippe Magué.↩︎, les conditions d’interopérabilité.

Le modèle documentaire est alors clairement celui d’une bibliothèque distribuée, sans murs, autrement appelée bibliothèque virtuelle ou numérique, mais où l’information n’est pas classée de façon hiérarchisée, dans un arbre, mais distribuée en graphe (il existe autant de relations non hiérarchisées que de liaisons possibles entre les documents ou des parties de ces documents). Mais, dès cette époque, il était clair pour Tim Berners-Lee que si l’on savait trouver une solution à l’échelle du CERN, on trouverait du même coup une solution à l’échelle d’Internet tout entier, pour n’importe quel document.

Il faut noter que, ensuite, HTML ne cessera d’évoluer en fonction des besoins des utilisateurs et des éditeurs de contenus, avec des logiciels de gestion de contenus (Content Management System - CMS)Le CMS (Content Management System) est une famille de logiciels destinés à la conception de sites web, comme Drupal, Spip, Joomla, WordPress…↩︎ de plus en plus performants. Issu de SGML, HTML sera perfectionné à partir de 1995 en parallèle aux possibilités de XMLLe XML (eXtensible Markup Language) est « un métalangage qui permet de définir pour un ensemble de documents donné la « forme » qu’ils doivent suivre : les types d’informations possibles (les boîtes) et les relations entre eux (les relations d’inclusion ou de succession). »
Voir aussi « Les formats » par Viviane Boulétreau et Benoît Habert.↩︎, un langage de balisage adaptant et simplifiant SGML pour le web, et assurant donc une plus grande interopérabilité.

Le web des documents sera complété dès 1993 par les outils de navigation (browser), afin d’exploiter l’ensemble de ces possibilités éditoriales, ainsi que des moteurs de recherche, afin d’indexer l’ensemble des contenus du web pour identifier et localiser les résultats des requêtes documentaires.

Dans cette architecture informatique, il importe de garder à l’esprit que ce qui est exploité au final par l’utilisateur humain est l’ensemble des possibilités (virtuelles) que d’autres humains ont intégrées au moment de l’édition numérique des documents (sites web, identifiés par des URL). Entre les deux, le système technique d’Internet et du web, universel et neutre, est indifférent aux contenus. Les « machines » informatiques ne connaissent en effet que les langages ou balises de description des structures physiques et logiques des documents, dont href, le lien hypertexte.

Sur cette base technique (la toile universelle), l’essor de l’échange et du partage de documents à l’échelle mondiale représente une fantastique possibilité de développement des connaissances, démultipliant à la lecture les capacités d’écriture. En effet, toute information portée par ces documents s’affranchit des contraintes d’espace et de temps, de communication et de mémoire. On conçoit qu’une telle expansion et dynamique de liberté de l’information bouleverse l’ensemble des pratiques humaines localisées ou restreintes où le document écrit (mais aussi tout enregistrement sonore ou visuel, multimédia) était cantonné. Par exemple, l’affranchissement de l’information économique numérique devient le vecteur de la mondialisation des échanges, dérégulant de nombreux domaines protégés ou contrôlés.

Vers le web sémantique

Dès le début, mais plus concrètement vers la fin des années 1990, Tim Berners-Lee précise ce que pourrait être une évolution « sémantique » du web.

En premier lieu, une évolution du web des documents, des sites web, donnait accès, via des formulaires (et des applications très spécifiques), à des bases de données (dont les structures sont presque chaque fois différentes). Ces résultats de recherches, lisibles pour des humains, sont « illisibles » pour les robots de requête. On parle alors de « web profond », dont les contenus restent opaques pour les machines interprétant HTML.

D’autre part, si vous recherchez par exemple sur le web (de documents) l’indication d’un cardiologue ouvert le dimanche dans le département du Rhône, vous risquez de n’obtenir aucune réponse – ce qu’on appelle « silence » – à cette question précise ou, à l’inverse, beaucoup trop de réponses – « bruit» : toutes les réponses indexant cardiologue / jours ouvrables / Rhône. Bien sûr, l’utilisateur humain peut successivement chercher dans l’annuaire des cardiologues, l’agenda de ces spécialistes et la liste dans la carte du Rhône, autant de bases de données différentes (du moins s’il a accès à ces différentes bases de données).

L’idée du web sémantique consiste, selon Bruno Bachimont (2011, 24‑41), à « pouvoir déléguer à la machine une partie de l’interprétation des ressources du web ». Il s’agit de créer les conditions pour que ces informations contenues dans trois « silos » de données différents (annuaire de cardiologues, agenda, données géographiques du Rhône) puissent être lues automatiquement par les machines (serveurs et clients-navigateurs). La « machine » doit pouvoir inférer logiquement la ou les réponses possibles à partir de ces trois types de ressources pourtant hétérogènes.

L’importance des métadonnées

Par « sémantique », il ne s’agit donc pas d’envisager que la machine « comprenne » au sens humain le contenu de l’information de chacune de ces bases. Par contre, ces informations (données) peuvent faire l’objet d’un langage structuré décrivant ces données, et suffisamment standardisé pour être partageable par des machines. Ce langage est appelé « métadonnées » (des données décrivant des données, ou metadata). Dans l’univers des documents, de telles « métadonnées » existent depuis longtemps. Ainsi, dans les bibliothèques, les notices bibliographiques de documents contiennent des informations structurées décrivant par exemple un livre – Auteur = Victor Hugo, Titre = Les Misérables, etc. Auteur, Titre, Éditeur, Date, etc. sont autant de métadonnées standardisées dans un format d’échange permettant à tous les systèmes informatiques des bibliothèques de partager et de traiter cette information (dédoublonner, ou distinguer des éditions par exemple, gérer des prêts, des acquisitions, etc.). Les conditions requises supposent donc une standardisation des métadonnées, par exemple dans le format MARC (MAchine-Readable CatalogingLancés en mars 1969, les formats MARC (MAchine-Readable Cataloging) sont des formats d’échange de données bibliographiques qui permettent d’informatiser les catalogues de bibliothèques.↩︎), le standard de description bibliographique développé par la Library of CongressVoir le site officiel de la Library of Congress.↩︎ dans les années 1960.

On notera que les métadonnées sont désormais souvent produites en même temps que les données, par exemple pour les photos (format, date, géolocalisation, reconnaissance de formes, de couleurs, etc.), avec les appareils photos numériques, pour lesquelles l’on peut parler de métadonnées « embarquées ».

Peut-il s’agir d’étendre à tout le web un système unique de format de métadonnées, non seulement pour les livres, mais pour toutes les informations circulant dans le monde entier, de site en site ? Bien évidemment, non. La toile n’est pas une immense bibliothèque, dont chaque information singulière pourrait être structurée uniformément. Chaque secteur d’activité, de service, de négoce, chaque base de données développe des systèmes hétérogènes de métadonnées. Par exemple pour les formats d’image, les fichiers son, les données géographiques, les tableaux économiques, etc.

RDF, un modèle de données

Par contre, cette question, indépendamment d’Internet, s’était déjà posée en intelligence artificielle. Comment exprimer de façon informatique des données hétérogènes afin que les machines puissent procéder à des inférences logiques, comme pour les systèmes experts ? L’idée de Tim Berners-Lee, avec le web sémantique, est d’introduire un langage de format de métadonnées suffisamment simple et générique pour lier toutes ressources présentes sur le réseau, mais également toutes données de bases de données relationnelles (sous réserve de l’ouverture légale d’accès). Cette unité fondamentale du système se nomme RDF (Resource Description FrameworkLe RDF (Resource Description Framework) permet de décrire de façon formelle les ressources web et les métadonnées. Voir les spécifications du W3C.
Voir aussi « L’organisation des métadonnées » par Grégory Fabre et Sophie Marcotte.↩︎, format d’expression des données qui sera standardisé par l’instance du W3CFondé en octobre 1994 par Tim Berners-Lee, le W3C (World Wide Web Consortium) est un organisme de normalisation à but non lucratif.
Voir aussi « D’Internet au web » d’Alain Mille.↩︎ dès 1994.

RDF repose sur la structure logique de prédicat , ou triplet, une sorte de phrase de grammaire simple : sujet, verbe, complément. Par exemple : Victor Hugo est l’auteur des Misérables, où le Sujet = « Victor Hugo » ; le Prédicat = « est auteur de » et l’Objet = « Les Misérables ». Ces triplets sont l’unité nécessaire et suffisante pour lier cette information dans des graphes de données de dimension énorme. La liste de la totalité des œuvres de Victor Hugo peut être simplement écrite. Si par exemple un autre triplet est du type « Les Misérables est une pièce de théâtre », ou « Les Misérables est jouée à Broadway », ou encore « Gavroche est un personnage des Misérables », « Jean Gabin a joué Jean Valjean », « Rodin a sculpté Victor Hugo », etc., toutes ces informations, dispersées sur la toile, peuvent être liées à « Victor Hugo », résultat d’une inférence logique automatique. Ces données liées dans un domaine particulier se nomment « jeu de données » (dataset).

La condition première pour que le web des données fonctionne est de doter chaque donnée d’un identifiant unique, ou URI (Uniform Resource Identifier)Un URI (Uniform Resource Identifier) permet d’identifier une ressource sur un réseau.↩︎, sur le modèle des URL (dans notre exemple : « Victor Hugo », « Les Misérables », « être auteur de », etc. doivent chacun avoir leur propre URI). Ces « adresses uniques des données » transmises par HTTP permettent de constituer les graphes de données sans ambiguïtés, chaque nœud étant unique.

Des domaines spécifiques d’information peuvent bien sûr standardiser ces systèmes de métadonnées et expliciter la sémantique associée dans des schémas (RDF SchemaLe RDF Schema appartient à la famille de langages du web sémantique publiés par le W3C.↩︎), RDF Schema, ou RDFS, est un langage extensible de représentation des connaissances permettant de déclarer une ressource comme classe d’autres ressources, par exemple les catégories documentaires bibliographiques citées plus haut, les notions de collection, d’œuvre, etc.

Dans le domaine documentaire en général, un format minimal de quinze métadonnées, le Dublin CorePour en savoir plus sur Dublin Core, voir aussi « L’organisation des métadonnées » par Grégory Fabre et Sophie Marcotte.↩︎, permet d’exprimer de façon universelle ces entités documentaires sur la toile. Anticipant le mouvement du web sémantique, le Dublin Core avait déjà permis de « moissonner » les documents à partir de l’identité de format des métadonnées (OAI-PMHPour en savoir plus sur le OAI PMH (Open Archives Initiative Protocol for Metadata Harvesting), voir aussi « L’organisation des métadonnées » par Grégory Fabre et Sophie Marcotte.↩︎). Une démarche du même type est mise en œuvre pour les archives (EADBasé sur le langage XML, le EAD (Encoded Archival Description) est un standard d’encodage des instruments de recherche archivistiques.↩︎), pour les œuvres de musées (CIDOC CRMPour en savoir plus sur le CIDOC Conceptual Reference Model (CRM).↩︎), pour les événements culturels, etc., mais très vite, l’hétérogénéité des formats cloisonne les possibilités d’accès ou de service web.

Ne serait-ce que pour ces secteurs culturels, le web sémantique va permettre une convergence des données issues des archives, des musées, des bibliothèques (voir le Centre Pompidou virtuelLe Centre Pompidou est un établissement culturel au cœur de Paris qui regroupe un musée d’art moderne, une bibliothèque publique, des librairies, des salles de spectacle…↩︎, EuropeanaLancée en 2008 par la Commission Européenne, Europeana est une bibliothèque numérique en accès libre qui regroupe et éditorialise des œuvres numérisées (vidéos, images, textes, sons…) provenant d’institutions de l’ensemble des pays membres de l’Union Européenne (bibliothèques, centre d’archives, musées…).↩︎, CanadianaDepuis 1978, Canadiana est un organisme canadien ayant pour mission d’encourager et de promouvoir la numérisation, la préservation et l’accès au patrimoine canadien.↩︎, data.bnf.frLe site data.bnf.fr regroupe et offre un accès libre à l’ensemble des données et ressources issues des catalogues de la Bibliothèque nationale de France (BnF).↩︎, HdA LabHdA Lab est un portail mettant à disposition un ensemble de ressources culturelles et éducatives en libre accès liées au programme officiel de l’enseignement de l’Histoire des arts en France. Il est le fruit d’une collaboration entre l’Institut de recherche et innovation (Iri) et le Ministère de la Culture et de la Communication français.↩︎, ÉruditDepuis 1998, Érudit a pour mission de promouvoir et diffuser la recherche et la création. La plateforme donne accès à une large palette de revues francophones et de publications issues d’éditeurs canadiens universitaires et culturels. Il s’agit d’un consortium universitaire québécois.↩︎, etc.), mais aussi se croiser avec des données sur les besoins ou comportements des visiteurs, l’agenda, l’origine, l’organisation des expositions, le tourisme, etc.

Ce modèle de données, RDF, est lui-même exprimable dans une syntaxe XML, faisant penser à une continuité dans la description des documents. Cette homogénéité du web en ce qui concerne la syntaxe est importante, mais c’est bien avec RDF, le format des données et sa structure en graphe, qu’est assurée l’interopérabilité. RDF peut d’ailleurs se traduire par une syntaxe XML, mais aussi par d’autres syntaxes : Turtle, N-triples ou N3Pour en savoir plus sur les syntaxes Turtle, N-Triples et N3.↩︎.

À ce stade, il importe de prendre conscience que le web des données a une dimension (quantitative et qualitative) qui répond à une rupture par rapport au seul domaine documentaire ou culturel (et à ses catalogues ou systèmes de métadonnées bien structurées). Il assure une interopérabilité inégalée jusqu’à maintenant. Le web des données correspond au besoin de traiter toute donnée liée (linked data), tout tableau à double entrée, toute corrélation ou fonction numérique. Cela correspond également au besoin étendu de recourir à des traitements automatiques de données « lisibles par les machines » pour tout système (dynamique) produisant des données, capteurs, enregistreurs de flux, systèmes d’objets, marchandises, processus de production, statistiques financières, etc.

Les secteurs scientifiques, et en particulier celui de la biologie avec ses immenses bases de génomique, sont des domaines privilégiés de développement du web sémantique. « Dans ce secteur, il existe un besoin urgent de croiser un très grand nombre d’informations pour trouver de nouveaux médicaments », indique Tim Berners-Lee (2007), soulignant l’importance d’une « intelligence collective » en croisant les données sur l’ensemble de la toile.

Un des exemples de développement du web des données à partir du web des documents est WikipédiaWikipédia est une encyclopédie libre qui peut être en grande partie modifiable par ses lecteurs.↩︎ et son expression en RDF DBPediaDérivé de Wikipédia, DBPedia propose une version structurée et sous forme de données normalisées au format du web sémantique des contenus encyclopédiques de chaque fiche encyclopédique.↩︎. On peut aussi citer la base de données géographiques GeonamesGeonames est une base de données numériques en libre accès regroupant des ressources géographiques.↩︎. La production distribuée et collaborative de connaissances par un Wiki (Wikipédia) est particulièrement propice au passage de ces informations encyclopédiques vers RDF, le Wiki étant un système éditorial structuré permettant la modification des données par des utilisateurs identifiés. L’ensemble des données structurées de Wikipédia, par exemple les données géographiques ou temporelles (dates) ou les entités nommées, sont automatiquement extraites et exprimées en un gigantesque silo de données liées (triple storeUn triple store est une base de données permettant de stocker et de récupérer des données RDF.↩︎ appelé DBPedia, et ce, pour chaque communauté linguistique de Wikipédia. Aussi, toute application du web des données peut se relier à ce silo et utiliser tout ou partie des données DBPedia. L’ensemble de ces silos correspond à des intérêts thématiques particuliers, mais peuvent interopérer.

Moteurs de recherche et requêtes SPARQL

Les moteurs de recherche, comme GoogleSociété fondée en 1998, Google est principalement connue pour son moteur de recherche mais également par quelques-uns de ses logiciels emblématiques, tels que Google Earth et Google Maps.↩︎, véritables entrées sur le web par leur privilège de hiérarchiser les résultats de requêtes en fonction d’un algorithme de « réputation » (le nombre de liens), page rankingInventé par Larry Page (co-fondateur de Google), le PageRank est un algorithme qui permet au moteur de recherche Google de mesurer la popularité d’une page web en analysant les liens qui pointent vers elles.↩︎, fonctionnent essentiellement en indexant sans cesse le contenu « linguistique » de la toile. Mais cette logique du document tend de plus en plus à faire place à une logique de pertinence des données pour satisfaire des requêtes. Google lui-même bâtit une intense politique de développement de microformats, intégrant des données RDF au sein de pages HTML (RDFa), ainsi que des outils de liens de connaissance, comme Knowledge GraphLe Knowledge Graph est un outil qui compile des informations sémantiques provenant de différentes sources. Lié au moteur de recherche Google depuis 2012, il permet d’obtenir les informations principales sur l’objet recherché. Celles-ci s’affichent alors en tête des résultats de recherche, l’utilisateur n’a pas à cliquer sur un lien pour y avoir accès.↩︎.

Mais le web des données a son propre langage de requête, SPARQL (pour SPARQL Protocol and RDF Query Language). C’est une sorte d’équivalent de SQLLe SQL (Structured Query Language) est un langage informatique normalisé servant à exploiter des bases de données relationnelles.↩︎ pour les bases de données (comme MySQLMulti-thread et multi-utilisateur, le MySQL est un serveur de gestions de base de données relationnelles SQL.↩︎), permettant de rechercher les données dans différents triple stores, participant au mouvement de décloisonnement des données et des applications.

Si nous reprenons notre exemple, avec le web des données, la requête SPARQL ira interroger les différents silos de données pour inférer les seules possibilités des agendas des cardiologues du Rhône effectivement ouverts le dimanche. Il faut bien sûr que ces données existent et qu’elles soient des ressources exprimées en RDF.

Ontologies et inférences

Si le web des données est dans la suite du web des documents, il se différencie fortement par sa capacité de raisonnement ou d’inférence. Le modèle de données RDF, unité logique, peut être appelé unité minimale de connaissance dans la mesure où, selon Tim Berners-Lee (2007), « cette description caractérise la donnée en la reliant à une catégorie. Par exemple, la donnée “pêche” sera reliée soit à la catégorie “fruit” soit à la catégorie “poisson”, selon l’objet sur lequel elle porte. Ou une date de naissance sera reliée à la catégorie “date”. […] RDF Resource Data Framework est aux données ce que HTML est aux documents. RDF permet de relier une donnée à une catégorie. »

Cette capacité logique de connaissance est elle-même formalisée pour le web sémantique. Les taxonomies ou thesaurus sont exprimés en SKOSLe SKOS (Simple Knowledge Organization System) a pour principal objectif de permettre la publication facile de vocabulaires structurés pour leur utilisation dans le Web sémantique.↩︎ ou OWLPour en savoir plus sur le OWL (Web Ontology Language), voir aussi « L’organisation des métadonnées » par Grégory Fabre et Sophie Marcotte.↩︎, appelés langages d’ontologies, standardisés par le W3C.

Ainsi, un modèle d’ontologie pour la description des personnes, le format FOAF (Friend of a Friend)Pour en savoir plus sur le format FOAF (Friend of a Friend), voir aussi « L’organisation des métadonnées » par Grégory Fabre et Sophie Marcotte.↩︎ ou ontologie des personnes, est utilisé dans l’organisation notamment des réseaux sociaux. À cet égard, on voit que le web 2.0, ou web collaboratif, n’est nullement disjoint, mais au contraire un élément dynamique de la structuration des données par le web sémantique.

Cette couche logique, elle-même basée sur des développements des logiques du premier ordre (description logic), permet de raisonner sur les données en liaison avec des références « métier » ou des catégories déjà organisées, propres à un domaine de connaissances, par exemple les relations logiques entre les entités biologiques (notion d’espèce, de classe, de genre, etc.).

L’aspect heuristique (de capacité de découverte) du web des données est sans doute la justification essentielle de cette délégation de pouvoir aux machines, pour le traitement de masses énormes de données, disjoignant l’origine éditoriale de ces données de leur réutilisation : « Beaucoup de grandes découvertes sont nées ainsi de la réutilisation d’informations qui avaient été collectées dans un tout autre but », précise ainsi Tim Berners-Lee (2007).

Pour simplifier, on peut dire que l’on passe d’un web des documents à un web des données (ou linked data) avec RDF, mais, grâce aux raisonnements et inférences possibles sur ces données, on passe du linked data au web sémantique, ou web des connaissances.

Automatisation accrue ou nouvelles dimensions humaines du web ?

Il est important d’insister sur le double aspect technique et humain du web sémantique. Tim Berners-Lee pose comme principe que si, par le passé, on partageait des documents, dans l’avenir, on partagera des données.

Dans une première approche, nous l’avons souligné fortement, cette avancée technologique se marque par une délégation accrue des traitements des données aux machines, remplaçant ainsi de fastidieuses recherches humaines d’informations, de plus en plus imprécises, du fait de l’hétérogénéité des formats et du cloisonnement des applications.

Cette montée en puissance des automates de traitement des données est un fait. Mais, paradoxalement, l’avancée du web sémantique fait naître de façon croissante des préoccupations humaines collatérales.

La question de la qualité des données s’avère stratégique. Certes, plus il y a de données brutes disponibles, plus le web des données peut fonctionner. Mais toute erreur ou approximation introduite en amont se retrouve en aval et peut vicier définitivement des raisonnements apparemment bien construits. Le datajournalisme, par exemple, utilisant de grandes masses de données pour faire naître des informations nouvelles – comme des statistiques de population carcérale, corrélées à des distributions géographiques d’événements ou de risques –, peut conduire à des conclusions erronées si le contexte de validité des informations n’est pas mûrement évalué.

Plus globalement, c’est toute la problématique de la transparence contre le secret qui se trouve profondément modifiée. Le journalisme, notamment, se trouve confronté au paradoxe de protection accrue des sources à mesure que se développe l’exigence de transparence des données.

À cet égard, rappelons que le document avait une fonction de preuve (origine, auteur, contexte, références, etc.). Les données sont au contraire « décontextualisées », dispersées, discrètes. Aussi peut-on raisonner logiquement sur des données sans se soucier de leurs références. Le web des données ouvre à la fois plus de possibilités, mais limite aussi les capacités intrinsèques de vérification. La question du contexte de validation de l’information demandera au contraire de nombreux travaux en fonction de nouvelles confrontations pour éclairer précisément les garanties que l’on est en droit d’attendre.

De nouvelles régulations entre transparence et confidentialité

De même, la nécessité de l’ouverture et la transparence des données publiques, afin que les organismes acceptent d’« exposer » ce qui était souvent au cœur de leurs missions, peut se confronter à des problèmes de limites de confidentialité. Il faut insister sur le fait que nous sommes les héritiers plusieurs fois millénaires de la relation au document, avec ce que cela implique en matière de possibilité de communication (de publication) ou de confidentialité (définissant la sphère privée, la signature). Passer au web des données, c’est aussi affronter un changement de paradigme en matière de transparence et de confidentialité.

De fait, sous l’impulsion de l’administration américaine (reprise ensuite au Royaume-UniAccéder au portail des données ouvertes du Royaume-Uni sur data.gov.uk.↩︎ et dans le reste de l’EuropeAccéder au portail des données ouvertes de l’Union européenne sur open-data.europa.eu.↩︎), le mouvement des data.govAccéder au portail des données ouvertes du gouvernement américain sur data.gov.↩︎ est en pleine expansion.

La question de la réutilisation des données (une fois réglée leur mise au format RDF) fait naître de nombreuses difficultés sociales de mise en œuvre. Ces situations nécessitent l’élaboration de consensus accrus, au terme de processus de discussion et de démocratie, afin que de nouvelles règles juridiques autorisent et encadrent cette nécessaire transparence. C’est typiquement le cas des données de santé, produites et « contrôlées » par des organismes de sécurité sociale, d’assurance-maladie ou par des institutions médicales. Le croisement de ces données sociales serait de la première importance pour le suivi d’usages de médicaments par exemple. Mais les conditions d’anonymisation sont souvent jugées insuffisantes par tel ou tel acteur des systèmes de santé, au point de refuser cette ouverture des données.

En tant qu’utilisateur en ligne, je suis identifié, d’autant plus que je suis par ailleurs présent sur des réseaux sociaux. Qui me garantit que mes requêtes (par exemple celle citée plus tôt sur l’identité d’un cardiologue ouvert le dimanche dans le Rhône) ne seront pas utilisées en les croisant avec d’autres données (d’ordre marketing ou d’opinion) ? La question de l’ouverture des données de santé est de fait une des principales problématiques sensibles, avec là encore la même ambivalence. Refuser l’ouverture des données de santé (y compris celles rendues anonymes), c’est s’opposer à des progrès scientifiques ou de services ; exiger une transparence complète, c’est risquer des abus d’effraction dans la vie privée.

Au sein de secteurs économiques qui gagneraient à une ouverture et à un partage à grande échelle des données, par exemple pour les transports aériens, des résistances socio-économiques à la transparence venant des compagnies aériennes ou des agences de voyage bloquent des avancées possibles.

Plus généralement encore, avec le développement des réseaux sociaux et des formes contributives du net, la production « humaine » de données est sans limite. Tim Berners-Lee, en 2007, proposait même de laisser le terme « World Wide Web » pour celui de « Giant Global GraphMot inventé par Tim Berners-Lee, le « Giant Global Graph » permet de distinguer les contenus actuels du Web de ceux de la prochaine génération dite du Web 3.0.↩︎ », indiquant cette croissance des données relationnelles. Corrélativement, les « ressources », au sens du linked data, sont de plus en plus des éléments du monde physico-chimique lui-même, data produites automatiquement par toutes sortes de capteurs, de détecteurs ou de procédures de l’« Internet des objets », ou d’« objets communicants ». Comment s’orientera l’architecture, et plus encore l’« urbanisme », qui aura en charge la gestion équilibrée des données et la maîtrise harmonieuse du web sémantique ?

Enfin, ce n’est pas le lieu ici de traiter du paradoxe qu’il y aurait à voir d’une part se généraliser un système d’intelligence collective et distribuée avec le web sémantique, mais d’autre part observer que cette montée en puissance se réalise et s’organise avec de grands monopoles informatiques et économiques (comme Google, Facebook, Amazon ou Apple) particulièrement jaloux de leurs secrets d’entreprise. Pour le moins, des traditions divergentes de décentralisation et d’hégémonie sont à l’œuvre, sans que l’on sache de quoi sera fait le futur numérique.

Globalement, avec le web sémantique, c’est donc souvent la frontière entre données publiques et usages privés, et même entre signification du « bien public » et « intérêt privé », qui demande à être redéfinie à nouveaux frais, accentuant le caractère socioculturel du système technologique d’Internet.

Références

Bachimont, Bruno. 2011. « «Enjeux et technologies: des données au sens» ». Documentaliste-Sciences de l’Information 48 (4): p. 24‑41. http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2011-4-page-24.htm.

Berners-Lee, Tim. 2007. « «Le web va changer de dimension» ». La Recherche 413: 34. http://www.larecherche.fr/savoirs/dossier/2-tim-berners-lee-web-va-changerde-dimension-01-11-2007-75889.

Berners-Lee, Tim, James Hendler, et Ora Lassile. s. d. « Le web sémantique ». Traduit par Elisabeth Lacombe et Jo Link-Pezet. URFIST CICT. https://web.archive.org/web/20071123112233/http://www.urfist.cict.fr/archive/lettres/lettre28/lettre28-22.html.

Cavazza, Fred. 2009. « Web Squared, transition vers le web 3.0 ou nouveau paradigme ? ». FreCavazza.net. Usages numériques et transformation digitale. https://fredcavazza.net/2009/07/24/web-squared-transition-vers-le-web-30-ou-nouveau-paradigme/.

Théodule, Marie-Laure. 2007. « Tim Berners-Lee : « Le Web va changer de dimension » ». La Recherche, novembre. https://web.archive.org/web/20140414051039/http://www.larecherche.fr/savoirs/dossier/2-tim-berners-lee-web-va-changerde-dimension-01-11-2007-75889.

Contenus additionnels