123opendata, le magazine de l’open data fail ?

Le projet :
Il y a quelques semaines, la SAS Abelia lançait le magazine de l’open data en ligne 123opendata, qui a pour objectif de recenser et relayer les informations sur l’open data. Initiative louable et utile, n’eut-ce été…

Le problème :

  • Question de principe : toutes les informations présentées comme de l’open data n’en sont pas, au contraire de nombreux articles se félicitent d’activités très éloignées des bons principes de l’open data

L’article racoleur « L’Open Data vous rassure -ou pas- sur la taille de votre pénis » traite par exemple d’une « carte interactive indiquant la taille du pénis des hommes en fonction de leur nationalité ».

Il n’est donc pas question de mise à disposition de données brutes mais d’une visualisation dont les données utilisées ne sont nullement diffusées. Cependant 123opendata a bien noté l’origine des données: « compilations de statistiques tirées d’études » et fournit même un lien… sur lequel vous ne trouverez aucune trace de donnée ouverte.

Ce contresens aurait pu passer pour une erreur d’attention si d’autres éléments ne venaient alimenter le doute sur la compréhension de la thématique open data par 123opendata, comme par exemple ici, , ou encore là.

  • Question de licence : aucun respect des droits d’auteurs

Aussi bien pour leurs supports visuels non crédités que pour les articles qu’ils se contentent de compiler sans jamais citer la moindre source, c’est-à-dire exactement l’esprit inverse à celui de l’open data !

  • Question d’éthique: fausses déclarations d’exclusivité

Aucune des informations fournies par exemple dans cet article n’est inédite contrairement à ce que promet l’intitulé…

La solution :
Avant de rédiger un article, penser à relire les 10 principes de l’open data. Corriger tous les précédents articles en fonction ou abandonner l’usage du terme open data. Rajouter les sources, crédits et un peu d’éthique dans le contenu seraient également souhaitable…

 

Des formats ouverts fantômes sur OpenDataTN…

Le projet :
Une agence web a pris seule en charge le développement d’une première plateforme OpenData pour la Tunisie , visant notamment à constituer selon sa présentation « un entrepôt de données « brutes » ». Le site affiche ainsi fièrement en bas de toutes ses pages le logo officiel de l’OpenData.

Le problème :
Alors que les filtres proposés dans le catalogue de données proposent de sélectionner des formats ouverts comme le CSV ou le XML, la plateforme ne propose en fait que des fichiers PDF non réutilisables et XLS propriétaires. La recherche sur XML renvoie bien trois résultats mais ceux-ci sont en fait des XLS mal référencés. Dur dur pour les réutilisateurs tunisiens !

La solution :
- Convertir tous les fichiers XLS proposés en CSV
- Extraire des PDF les données intéressantes et reconstituer cela en données brutes.

Les grandes villes françaises n’aiment pas les réutilisateurs mécaniques

Le projet :
Paris, Toulouse, Nantes ou Le Mans ont tous lancé leurs propres plateformes OpenData donnant accès aux données publiques de ces villes.

Le problème :
Si ces plateformes respectent généralement les principes de base de l’OpenData notamment en termes de licence ou de formats, l’accessibilité, notamment par des machines, ne semble pas vraiment prise en considération : sur toutes ces plateformes, pour pouvoir télécharger les données, il faut valider manuellement l’acceptation de la licence en cochant une case dans son navigateur. Cela crée une discrimination technologique en empêchant toute automatisation de l’accès aux données par les machines. La réutilisation mécanique est pourtant source de l’esprit de l’OpenData.

La solution :
- Placer sur les pages de téléchargement des données un lien explicite clair vers la licence et retirer les modules de validation de licence.

La SNCF veut réécrire à sa sauce les licences existantes

Le projet :
Suite à notre article du 27/03/12, data.sncf.com a déclaré par le biais d’un commentaire  que : « La licence proposée avec les premiers jeux de données n’est pas définitive. Le département juridique se penche sur une version d’une licence ODbL ». En effet, la sortie d’une nouvelle « licence OpenData SNCF » a été annoncé sur le forum consacré.

Le problème :
Le département juridique est en train de réécrire complètement sa propre version de la licence ODbL… S’inspirer de cette licence libre puis la remanier de fond en comble en gardant la mention « ODbl » n’en fait pas une nouvelle ODbL mais simplement une nouvelle licence créant des risques sérieux d’incompatibilité avec les autres, notamment avec son chapitre consacré à la propriété intellectuelle. Pourquoi réinventer la roue ?

La solution :
- Adopter une licence Open Data existante sans la réécrire. La dernière traduction en droit français en date de l’ODbL est disponible à cette adresse.

Le budget du CNN en PDF – image

Le projet :
Le Conseil National du Numérique continue à revendiquer dans sa rubrique Organisation la pratique de l’OpenData et a ajouté suite aux premières critiques plus d’informations sur ses données budgétaires.

Le problème :
Le CNN ne semble toujours pas avoir compris les bases de l’OpenData, à savoir la réutilisabilité des données. Outre des données chiffrées au fil d’un article dans une page web, les nouvelles données budgétaires proposées sont, comme à Saint-Quentin, au format PDF scanné, pas même passé à l’OCR et donc non-copiable.

La prochaine étape sera-t-elle un scan de l’agenda papier du CNN ?

La solution :
- Toujours mettre les données sous une licence ouverte et dans un format ouvert et réutilisable

Data.VisitProvence.com ne veut pas de réutilisateurs

Mise-à-jour (16h50 04/04/12) : Le site est passé en licence ODbL. Belle réactivité et bienvenue donc :-) !!!

Le projet :
L’agence Bouches-du-Rhône Tourisme libère ses données sur son nouveau site VisitProvence OpenData et explique dans sa Foire Aux Questions : « Un citoyen, un chercheur, un développeur amateur ou professionnel, un institutionnel, une association, ou une entreprise… C’est pour vous que Bouches-du-Rhône Tourisme libère ses données. »

Le problème :
Au premier abord, il est difficile d’identifier la licence sous laquelle les données sont proposées. On finit par la trouver individuellement sur chaque jeu de données. Et c’est là que l’on découvre : Creative-Commons, Paternité, Pas d’Utilisation Commerciale, Pas de Modification, 2.0 (CC-By-Nc-Nd 2.0).

En interdisant de modifier ses données, VisitProvence se coupe de toute réutilisation par quiconque souhaitant enrichir son travail d’autres données. La clause Non-Commerciale vient par ailleurs en totale contradiction avec le message introductif : quelle entreprise fera un usage « non-commercial » des données ? Enfin les licences Creative Commons dans leurs versions 1 à 3 ne sont pas prévues pour les bases de données et sont donc légalement très mal adaptées, comme en témoignent les efforts de la Fondation Creative Commons pour corriger cela dans une future version 4.

Data.VisitProvence n’a visiblement pas encore tout compris à l’Open Data…

Pour l’anecdote, il est assez amusant de noter qu’à chaque jeu de données est associé un différent fichier PDF de 2Mo du même scan de travers de la licence CC-BY-NC-ND :

http://data.visitprovence.com/uploads/tx_moduledonnees//licence_CC_41.pdf
http://data.visitprovence.com/uploads/tx_moduledonnees//licence_CC_42.pdf
http://data.visitprovence.com/uploads/tx_moduledonnees//licence_CC_43.pdf

Avec 49 jeux de données proposés en ligne, cela fait donc déjà près de 100Mo d’hébergement pour les fichiers de licence !

La solution :
- Adopter une licence Open Data, c’est-à-dire sans discrimination des usages notamment commerciaux, en utilisant par exemple une licence libre comme l’Open Database Licence (ODbL) ou la Licence Ouverte (LO).
- Appliquer cette licence globalement à la plateforme plutôt que d’uploader N fois le même fichier.

Home’n'Go : TechCrunch voit de l’OpenData partout

Le projet :
Home’nGo est un service web d’aide à la recherche d’appartements proposant aux utilisateurs des informations détaillées sur le marché immobilier. TechCrunch le qualifie ainsi d’ « une des premières startups utilisant l’Open Data ».

Le problème :
Contrairement à ce que la rubrique « Données publiques / Open Data » affirme (« Home’n’go met à votre disposition de très nombreux jeux de données contextualisées »), on ne peut trouver nulle trace où que ce soit d’un accès aux dits jeux de données.

On trouve bien une fois enregistré sur le site de jolies visualisations de résultats électoraux ou de cours immobilier, mais s’il s’agit effectivement de réutilisation d’OpenData, la mention des sources manque cruellement. Est-ce bien légal ? Cela ne respecte assurément pas les critères de la Licence Ouverte sous laquelle sont placés les jeux de données correspondants sur data.gouv.fr…

La solution :
- Citer les sources
- Proposer les données visualisées au téléchargement en csv

Au Canada, les transports de Laval « ouvrent » leurs données sous licence fermée…

Le projet :
STL, la société de transports en commun de la ville de Laval au Canada se lance dans un ambitieux programme de « données ouvertes ».

Le problème :
Pour pouvoir ne serait-ce que jeter un œil aux données, il est nécessaire de s’inscrire en remplissant un formulaire présentant les conditions d’utilisation à valider. Celles-ci précisent notamment :

« Aucune utilisation commerciale ou quasi commerciale des informations n’est autorisée en vertu de l’entente sans l’autorisation au préalable et par écrit de la STL.
Toute marque officielle de la STL et tout matériel protégé par des droits d’auteur ne peuvent être utilisés sans l’autorisation au préalable et par écrit de la STL. »

Ces conditions sont en totale opposition avec les principes de l’OpenData qui consistent à assurer et encourager la réutilisation, par tous, sans restriction ni limitations du type d’usages. La STL se refuse ainsi par exemple à ce que des applications mobiles payantes utilisent les horaires de leurs transports en commun.

La solution :
- Adopter une licence OpenData, c’est-à-dire sans discrimination des usages par exemple commerciaux
- Rendre les données accessibles directement à tous sans inscription préalable

La SNCF veut choisir ses utilisateurs de données

Le projet :
La SNCF souhaite se lancer dans l’Open Data et a ouvert pour cela une plateforme de dialogue avec les réutilisateurs en amont de cette initiative pour pouvoir prendre compte de leurs avis.

Le problème :
Dès la page d’accueil du projet, on peut lire :

« C’est un modèle gagnant-gagnant. SNCF envisage de mettre à la disposition des meilleurs innovateurs les données et les APIs de nature à leur inspirer des services performants pour ses clients et profitables pour eux. »

La SNCF compte-t-elle donc ne donner accès à ses données qu’à un groupe limité d’utilisateurs triés sur le volet ? Cela serait alors tout sauf des données ouvertes !

Les premiers efforts réalisés sont par ailleurs assez inquiétants : comme le Sénat, la SNCF a opté pour une licence « maison » complètement déséquilibrée pour les réutilisateurs puisque lui permettant d’en changer les conditions unilatéralement à volonté.

Les débats sur la plateforme témoignent pourtant d’une attention forte de la communauté des réutilisateurs au bon respect des principes de l’OpenData par la SNCF… Seront-ils plus écoutés à l’avenir ?

La solution :
- Opter pour une licence libre comme l’ODbL ou la LO
- Exclure toute idée de limiter l’accès aux données à des utilisateurs privilégiés

Le Sénat sous licence aux conditions évolutives…

Le projet :
Le Sénat a proposé dans le cadre des élections sénatoriales de 2011 une rubrique OpenData visant à mettre à disposition les résultats des élections.

Le problème :
Les données sont placées sous une licence maison qui présente non seulement diverses conditions peu respectueuses des principes Open Data, mais dont l’article 7 permet en plus au Sénat de modifier ces conditions et les termes de la licence unilatéralement : « Signez ce contrat, on rajoutera les détails ensuite ! »…

Surprenant venant d’une institution parlementaire de pouvoir trouver une clause juridique aussi irréaliste, et certainement pas Open Data.

Le site impose par ailleurs d’approuver les termes de la licence manuellement en cochant une case, constituant là aussi une atteinte manifeste aux critères des données libres.

La solution :
- Adopter une licence compatible Open Data comme l’ODbL ou la LO.
- Supprimer la case obligatoire à cocher pour accéder aux données