Web des données



Introduction - Définition

L'expression "Web des données", ou "Web of data" ou encore "linked data", marque une évolution du web par rapport à son origine: un web documentaire statique, c'est-à-dire un ensemble de documents reliés par liens (hypertextes), dans lequel une personne (humaine) peut naviguer et en extraire / traiter / créer du sens.
L'immense quantité de documents rend maintenant impossible le parcours exhaustif du graphe formé par l'ensemble des documents disponibles. Le traitement, ou au moins le pré-traitement, automatisé par des algorithmes (machines) est nécessaire.
Un secteur complet d'activité et de recherche actuel est à ce sujet l'exploration de données, ou fouille de données, forage de données, prospection de données, ou encore data mining. L'enjeu de ce domaine est l'extraction de connaissances à partir de grandes quantités de données, par des méthodes automatiques (algorithmiques/programmées sur des machines).

Le web se développe actuellement avec de nombreuses catégories de données:
  • les documents eux-mêmes, leur contenu
  • des données décrivant les documents, ou métadonnées
  • des données de style, ou encore données explicitant la manière dont les données vont être utilisées (affichées par exemple par le navigateur)
  • des liens entre les données: le graphe des lien entre les données est lui-même une donnée !
    Tous les documents ne sont pas liés entre eux, et si une page a un lien vers une autre, c'est une information qui peut avoir du sens.
  • des données d'utilisation: le chemin parcouru par les utilisateurs dans le graphe des documents, ainsi que leurs actions, comportement, …
  • des données sur les utilisateurs: les données personnelles
  • les liens entre utilisateurs sont aussi des données (sociales), voir les systèmes de recommandation

Dans les réseaux sociaux, par exemple, trois formes de données sont principalement utilisées:
  • les données personnelles des utilisateurs
  • le graphe des liens entre utilisateurs
  • les informations publiées par les utilisateurs

Décrire des données

Le Web repose initialement sur le standard d'identifiaction de ressources appelé URI pour Uniform Ressource Identifier, ou identifiant uniforme de ressource.
Cette identification est une extension du standard URL, pour Uniform Ressource Location, qui ne permet d'identifier qu'uniquement des pages du Web.

Le standard RDF, pour Resource Description Framework, a été conçu pour décrire des ressources, pas uniquement les localiser ou les identifier.
Ce langage de description des données permet de construire le graphe des données disponibles.

Web sémantique: donner du sens aux données du Web

Le Web sémantique est une extension du Web, standardisée par le W3C (World Wide Web Consortium), et qualifiée par certains de web 3.0.
L'expression "Web sémantique" a été inventée par Tim Berners-Lee, inventeur du Web et directeur du W3C, voir chronologies internet ou < href="/Lycee/2nde/SNT/web/#chronologie">web.
Il le définit comme "une toile de données qui peuvent être traitées directement et indirectement par des machines pour aider leurs utilisateurs à créer de nouvelles connaissances".

Il faut donner du sens aux données, en liant et structurant l'information.
Le format RDF, par exemple, permet de donner de telles informations.
Le langage HTML permet lui aussi de travailler dans ce sens. On a vu, en écrivant une première page Web, qu'on peut distinguer dans une page Web, la page "affichée" et son contenu.

Par exemple une page correctement conçu commence par une section "head" dans laquelle on peut entre autres déclarer des méta-données, c'est-à-dire des informations qui ne seront pas affichées directement mais qui donnent des informations sur les données de la page.
Par exemple, on peut déclarer dans l'en-tête,
<!DOCTYPE html>
<html>
  <head>
    <meta name="keywords" content="HTML, début, introduction, 1ère page">
    <meta name="author" content="Moi !">
    <meta name="description" content="Une description personnelle de la page qui suit: ...." />
    <meta property="og:title" content="Ma toute première page web" />
    <meta property="og:description" content="Essai d'une première page web" />
  </head>
...
HTML5, une révision majeure de HTML finalisée en 2014, permet de plus d'insérer dans le code HTML des informations de liens et de structure.
Par exemple, la balise <a> qui permet de spécifier un lien peut être compléter par un attribut "rel" (pour "relation"), par exemple:
<a href="/contact/email.html" rel="author"></a>
pour indiquer le lien est vers des informations sur l'auteur, ou encore
<a href="/adresse.fr/page-bis.html" rel="alternate"></a>
pour indiquer que la page liée est la même mais dans une version alternative (traduction, page plus légère pour mobile, version imprimable, ...) ou encore des balises explicitement descriptives telles que <date>, <video> <audio>

Exercice 1
Faire des recherches sur les éléments nouveaux, notamment sémantiques, apportés par HTML5

Systèmes de recommandation

La masse de données qui circule à travers le Web est devenue clairement inexploitable directement par un humain.
Sans aide, un utilisateur peut passer à côté d'informations qui auraient pu grandement l'intéresser, tout comme s'orienter vers de mauvais choix.

De nombreuses techniques informatiques existent pour permettre de guider un utilisateur et faciliter l'extraction de données pertinentes.
La recommandation est une de ces techniques. Ces techniques sont largement utilisées dans de nombreux domaines:
Exercice 2
Donner des exemples d'application utilisant une technique de recommandation.
  • le e-commerce, afin de proposer d'autres produits à un acheteur potentiel, ou de le guider dans un (trop) vaste catalogue
  • la publicité, afin de cibler les annonces qui peuvent intéresser une personne
  • les web-radios (ou smart radio), afin d'adapter personnellement un contenu
  • les moteurs de recherche: deux personnes qui renseignent exactement les mêmes mots clé peuvent néanmoins rechercher des informations différentes



Deux approches principales existent:
  • les recommandations basées sur le contenu
  • les recommandations basées sur une approche collaborative / sociale
  • les recommandations basées sur une approche hybride
Exercice 3
Donner des avantages et inconvénients de chacune des approches précédentes.



Voir aussi: