EA2013 Open Data

From air
Revision as of 10:58, 2 November 2013 by Simon.Planes (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search

Présentation

Abstract

The Open Data goal is to make data freely available. Many governments open theirs, except for sensitive information. We can find a lot of applications, and this in various fields; most of them are useful (economically, socially...), but there can be some abuses. Different licenses describe how data can be used, copied and redistributed. Linked Data defines data structuring on the Web in such a way that they can be understandable by machines. Usually, data are described in a RDF graph, and then they are used through a query language such as SPARQL.

Keywords

opening, transparency, license, W3C, Linked Data, RDF, SPARQL

Résumé

Le concept d'Open Data consiste à rendre librement accessibles des données. De nombreux gouvernements ouvrent leurs données, à l'exception des données dites sensibles. Les applications sont multiples et concernent des domaines très variés, et sont souvent bénéfiques (économie, social...), mais des dérives peuvent exister. Les conditions d'utilisation, de copie et de redistribution sont définies par différentes licences. Le Web des données préconise de structurer les informations disponibles sur la toile de manière à les rendre interprétables par les machines. Elles peuvent ainsi être décrites par un modèle de graphe (RDF), puis interrogées à l'aide d'une technologie de requêtage (SPARQL).

Mots-clés

ouverture, transparence, licence, W3C, Web des données, RDF, SPARQL

Synthèse

Description

Historique

Bien que défini depuis plusieurs années, c'est en 2009 que le concept d'open data gagne en popularité et en visibilité avec la campagne présidentielle de Barack Obama et le lancement du site data.gov, qui se présente comme un moyen d'améliorer l'accès public aux données générées par le gouvernement. La même démarche est reprise (entre autres) au Royaume-Uni en 2010 (data.gov.uk) et en France en 2011 (data.gouv).

En France, on considère une donnée publique comme étant une information d'un document produit ou reçu par les administrations, appartenant de fait au domaine public. Des villes comme Rennes et Paris ont été précurseurs dans le processus d'ouverture des données, avec notamment le projet "Paris Data" (2011) mettant à disposition des données cartographiques. Les collectivités de plus de 3500 habitants auront par ailleurs l'obligation, d'après l'article 29 du troisième projet de loi de décentralisation, d'ouvrir leurs données publiques.

Définitions

Une donnée ouverte ne souffre d'aucune restriction technique, juridique ou financière. En 2007, la Sunlight Foundation, une association pour la transparence démocratique, définit la "donnée ouverte" à travers dix critères : complète, primaire, opportune, accessible (sous-entendu par une machine), exploitable, non discriminatoire, non propriétaire, libre de droits, permanente, gratuite.

Cela se limite toutefois aux données considérées comme non sensibles, c'est-à-dire à l'exception de celles pouvant porter atteinte à la vie privée ou à la sécurité d'un État, ou encore celles soumises au droit d'auteur.

Historiquement, l'ouverture des données a pour but de servir la démocratie, en favorisant la transparence l'accessibilité de l'information, et ainsi inciter le citoyen à la confiance et à la participation à la vie de la communauté.

Applications

Les applications sont multiples et variées<ref>Liste d'acteurs de l'open data : [1]</ref> ; on présente ici quelques exemples de domaines concernés :

  • cartographie
    • exemple : OpenStreetMap : carte libre du monde qui permet de voir, modifier, et utiliser des données géographiques de n'importe quel endroit du monde
  • sciences
  • gouvernements
  • informations pratiques
    • transports
    • stationnements
    • points d'accès Wi-Fi
  • divertissement

Conséquences

De par sa nature, l'ouverture des données peut être sujette à débats. Ses conséquences sont souvent bénéfiques (en matière d'économie par exemple, la transparence des échanges peut potentiellement diminuer le risque de plans sociaux abusifs), mais peuvent également concerner des sujets plus sensibles, et dont la pertinence est remise en cause (en ce sens, un site américain met à disposition les adresses des délinquants sexuels répertoriés).

En général, le croisement de telles données sert à réduire des coûts : il devient par exemple plus facile d'ajuster la consommation énergétique d'un ensemble de bâtiments en disposant des données relatives à son utilisation.

Aspects techniques

Licences

Les données ouvertes sont soumises à diverses licences, qui varient notamment selon les pays et leurs positions juridiques. Ces licences définissent les conditions de copie, de diffusion et de réutilisation de ces données. On recense principalement les licences suivantes :

  • Open Database License (ODBl) : impose la gratuité à toute donnée dérivée des données sous cette licence, et autorise une utilisation commerciale. OpenStreetMap utilise cette licence.
  • Licences de l'Open Knowledge Foundation : donnent la liberté d'utiliser, de copier, de modifier et de redistribuer les données. Leurs différentes licences donnent plus ou moins de droits : la Public Domain Dedication and License n'impose aucune restriction, Open Database Commons impose d'indiquer le nom de l'auteur des données originelles, de même que Open Database License qui requiert aussi de redistribuer les données sous les mêmes conditions que la licence originale.
  • Creative Commons
  • La Licence Ouverte : utilisée en France (notamment pour le site data.gouv.fr, dont les seules contraintes sont de mentionner le nom de l'auteur et la date de production des données.

On notera qu'en France, la Licence Ouverte et l'ODBl sont majoritairement utilisées, et ce en proportions égales.

Web des données

D'après Tim Berners-Lee, inventeur du World Wide Web, les ressources du web devraient être compréhensibles et interprétables par l'homme mais aussi et surtout par la machine. Le but étant d'aboutir à un web « intelligent », dans lequels les informations ne sont plus seulement stockées mais comprises par les ordinateurs afin de répondre de manière exacte aux requêtes de l'utilisateur : on parle alors de Web des données, décrit par le W3C en 2006 comme un ensemble de données structurées et liées entre elles pour pouvoir être exploitées par les machines (on peut y voir l'équivalent de l'hypertexte pour les données). Tim Berners-Lee a donc défini quatre règles en ce sens :

  1. Utiliser des URI pour identifier de manière unique les choses.
  2. Utiliser des URI HTTP pour les consulter.
  3. Donner des informations utiles sur les URI (notamment à l'aide des standards RDF et SPARQL, décrits plus bas).
  4. Inclure des liens vers des URI externes pour favoriser la découvertes d'autres informations sur le Web.

Description des données

Exemple de graphe RDF
Exemple de graphe RDF pour une personne (Eric Miller). Chaque prédicat aboutit soit à un objet (par exemple la valeur « Eric Miller » pour le prédicat « fullName »), soit à un autre sujet (l'adresse mail).

Pour décrire les données sur le Web de façon formelle, un standard développé par le W3C s'est imposé : Resource Description Framework (RDF), un modèle de graphe qui permet à des applications d'échanger des informations qui ne sont à la base ni formalisées ni structurées. On peut considérer que RDF est aux données structurées ce que HTML est aux documents. D'après, wikiversity.org<ref>http://fr.wikiversity.org/wiki/SPARQL_Protocol_and_RDF_Query_Language/Mod%C3%A8le_de_donn%C3%A9es_RDF</ref>, un document structuré en RDF est un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique (par des machines) de telles descriptions. Un document RDF est constitué d'un ensemble de triplets. Un triplet RDF est une association :

(sujet, prédicat, objet)

dans laquelle le sujet est la ressource à décrire, le prédicat est une propriété de la ressource, et l'objet est la valeur de cette propriété. Ainsi, dans un graphe, les nœuds sont les sujets et les objets, et les arcs sont les prédicats.

Les graphes RDF sont ensuite représentés selon une syntaxe parmi (entre autres) RDF/XML (la version XML proposée par le W3C), Notation 3, ou encore Turtle.

Utilisation des données

L'interrogation de graphes RDF se fait à l'aide d'un langage de requêtes. Le W3C a développé SPARQL (SPARQL Protocol and RDF Query Language), destiné à devenir un standard. SPARQL peut être vu comme l'équivalent de SQL pour les graphes RDF.

PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
SELECT ?subject ?label
WHERE { ?subject rdfs:label ?label } LIMIT 100

DBpedia est un projet communautaire qui extrait de manière automatique des informations de Wikipédia, notamment grâce aux données normalisées, souvent placées dans un encart situé en haut à droite des pages.

Démonstration

Exemple de traitement de données provenant de plusieurs sources d'informations, avec l'outil Yahoo! Pipes :

Utilisation de Yahoo! Pipes
1. On extrait les données de trois sites d'information. 2. Ces données sont combinées. 3. On applique un filtre pour ne garder que celles qui répondent à un critère (ici, celles qui contiennent le mot « taxe » dans leur description). Le résultat s'affiche dans la console en bas de l'écran.

Annexes

Liens

Références

<references />