lundi, décembre 13, 2010

Linked Data : Killer App du Cloud ?


Semantic Web Wars: Un nouvel espoir?

Dans un fameux article de Wired publié en août dernier, Chris Anderson, son éditeur en chef, et Michael Wolff, célèbre chroniqueur et récent biographe acerbe de Rupert Murdoch, pronostiquaient, tels l'oracle de Iolcos annonçant à Pelias qu'il périrait de la main d'un descendant d'Éole, rien moins que la fin du World Wide Web tels que nous le connaissons.

 



Les quatre cavaliers de cette Apocalypse 2.0, selon les prophètes Anderson-Wolff, sont déjà apparus au ciel crépusculaire : (i) la multiplication de services Internet dédiés (vidéo, téléchargement, musique, jeux, actualités) ne reposant pas sur le Web ; (ii) la prolifération des maintenant fameuses apps et de leurs hypermarchés, les App Stores, enclaves propriétaires d'une grande distribution insoluble dans la Toile ; (iii) l'émergence de nouveaux moguls des médias en ligne (Yuri Milner, Jack Ma) qui, modernes Citizens Kane à contre-courant des entrepreneurs du Web toujours shootés à l'utopie collectiviste du chaos qui s'auto-organise, implémentent, quant à eux, une stratégie traditionnelle du Big Is Beautiful, arc-boutée sur la reconquête de médias verticaux, intégrés, traditionnels, sur un Web qui les avait naguère désintermédiés et délinéarisés ; (iv) le constat, enfin, de l'échec à transformer le Web en un véritable format de média face au tsunami de la « démocratisation » du marketing (Google Adwords et Facebook Ads en tête) et à la déification de l'audience au détriment du contenu (Demand Media).

 



Mais les nerds, les geeks, et le plus glorieux d'entre eux, Sir Berners-Lee répliquent dans la plus pure tradition du grand spectacle StarWarsien : la contre-attaque est à lire dans le prestigieux Scientific American — dont la caution scientifique, avec une Science majuscule dans le titre, devrait certainement pulvériser l'impudent Wired comme un Alderaan sous le feu du (désormais dévoilé) LOIC. (Prendre note néanmoins pour M. Besson : rien à voir avec notre propre arme Web nationale de destruction massive, secrètement exfiltrée en territoire américain, Loïc Le Meur.)

 



Ce plaidoyer pour les standards ouverts du Web figure comme une leçon de storytelling à l'ère de la fiction transmedia contributive. Le récit est poignant et personnel : ce cri du coeur paternel « Le Web est physiquement né sur mon bureau, à Genève, en décembre 1990 » ouvre cet évangile néo-christique, Tim en Joseph et un cube NeXt Computer en Marie sans doute, pour conclure, quelques psaumes plus loin, sur l'apothéose imminente du HTML 5 et du Web Sémantique victorieux.

 



Au passage, notons un glissement subtil de terminologie dans la vulgate prosélyte du pape du W3C, le Semantic Web y devient subrepticement les Linked Data. La substitution de l'anglais vulgaire « les données reliées » à la noblesse toute cybernétique de l'adjectif « sémantique » est loin d'être neutre. Lorsque Sir Berners-Lee déclara le Web Sémantique (toujours S majuscule, notez bien) ouvert pour le business en 2008, après sept ans de gestation au W3C, les critiques fusèrent, portant sur la complexité des standards — fussent-ils ouverts —, comme RDF (Resource Description Framework) et ses ancillaires OWL (les abscons Ontology Languages), SKOS (l'oxymore Simple Knowledge Organisation System), RDFS (le métamodèle RDF Schema), ou SPARQL (la prosodie interrogative du Query Language for RDF). Des inquiétudes existentielles furent formulées sur la difficulté concomitante de leur implémentation : Fallait-il que les programmeurs Java devinssent linguistes de surcroît ?

 



L'insoutenable légèreté du Web

 



Et pourtant, en 2009 et en 2010, les premiers efforts de publication de données reliées ont vu le jour. Les gouvernements américain et britannique, par exemple, ont ouvert des sites Web où sont publiées des données d'État, dans un souci de transparence citoyenne (http://www.data.gov/ et http://data.gov.uk/), suivant les standards du Web Sémantique. (En France, on a préféré donner la priorité aux fort utiles Hadopi et Loppsi, comme il sied à la vision d'une République Démocratique des Données.) La BBC et le New York Times leur emboîtent aujourd'hui le pas, qui mettent progressivement à la disposition du public leurs données au format RDF.

 



En parallèle, des projets souvent associatifs, parfois commerciaux, ont été lancés pour faciliter à tout internaute la publication de données reliées. En Angleterre par exemple, Swirrl offre une véritable plateforme de publication RDF, Publish My Data, où l'on navigue, interroge et publie un corpus de données aux formats sémantiquement corrects aussi simplement que l'on poste un billet sur son blog. Factual, une startup de Los Angeles, qui vient de lever $25m auprès d'Andreesen-Horowitz et d'Index Ventures, non seulement collecte et fournit les données mais offre également les précieux protocoles et APIs (REST et Javascript) pour y bâtir ses propres applications. Sous nos cieux http://www.nosdonnees.fr/ veut apporter plus de visibilité aux données publiques librement accessibles à chacun.

 



Le cours de cette banalisation des données reliées ne va cependant pas sans son lot de questions techniques. Publier des Linked Data par conversion automatique de bases de données déjà structurées, histoire de gagner du temps par exemple, reste difficile et semblerait plutôt donner raison aux critiques de la première heure du Web Sémantique. La désambiguïsation automatique des entités, noms propres, marques, lieux et adresses, dates, etc. a heureusement fait de grand progrès depuis trente ans. Une solide tradition linguistique française, en particulier, a donné naissance à quelques jeunes pousses hexagonales tout à fait exemplaires sur ces sujets, comme nos familiers Sinequa, Kwaga, Arisem (absorbé par Thales au nom du « patriotisme économique »), le célébrissime Exalead (absorbé par Dassault Systèmes, sans mobile apparent !), Lingway (dont l'équipe fondatrice a oeuvré chez l'antique — pour ne rien dire du ballet GSI, Tecsi, ADP et Steria — pionnier ERLI devenu Lexiquest avant d'être absorbé, lui aussi, par SPSS en 2002 pour un montant hélas étique !), Datops (absorbé en 2006 par LexisNexis), Semio Corp. (absorbé en 2002 par Entrieva rebaptisé Lucid Media depuis, mais inspirateur aujourd'hui de HotGrinds) et bien d'autres encore qui ont réellement fait avancer les solutions techniques.

 



Alors que souvent les solutions de ces éditeurs s'appliquent spécifiquement à un usage donné : moteur de recherches général ou vertical, intelligence économique, traitement des courriers électroniques, estimation des opinions exprimées et e-reputation (ici comme d'ailleurs Evri qui a racheté Radar Networks de Nova Spivack, l'inventeur prodige de Twine, et sérieux concurrent du Stephen Wolfram de Mathematica et Wolfram Alpha au titre de mégalomane cérébral du Net), des nouveaux-venus comme Zemanta et Open Calais se réclament plus explicitement des Linked Data. (Tout ceci ne paraît pas étranger à la levée de fonds de $3m bouclée en exprès par Zemanta le mois dernier...)

 



La connotation communautaire, quant à elle, brille dans le projet DBpedia qui vise à une traduction ontologiquement durable de Wikipedia — à quand celle de Wikileaks, qu'on passe aux choses sérieuses ! Il y a également Freebase. On aborde ici la constitution, collective ou automatique, des liens entre entités RDF, qui représente la deuxième étape naturelle après leur collecte. Avec le développement de ces référentiels de liens de données, il devient en effet critique de simplifier, voire d'automatiser, la mise en relation d'entités et de classifications d'un domaine à l'autre (par exemple, seuls 20% à 30% des termes employés par la BBC dans ses efforts internes de publication se retrouvent dans le vocabulaire de DBpedia). Comme jadis à la Tour de Babel, la fragmentation des dialectes empêche le grand-oeuvre.

 



Json et les internautes

 



Même chez les techies le débat bout ! La plateforme PHP Silk Framework vise les Linked Data comme différentiateur, au lendemain du très bruyant rachat de Heroku (plateforme Ruby) par Salesforce ($212m en cash, une broutille pour Benioff !). Des voix s'élèvent pour des standards ouverts de Linked Data. En effet, à l'heure où les plus grands sites sociaux comme Twitter, FourSquare et Facebook abandonnent discrètement leur interface XML au profit d'APIs en Json, quel programmeur accepterait, sans déchoir, de défroisser le XML amalgamé au RDF par :

 




var tweet = rdf['http://itrmanager.org/tweet/12343'];
var user = rdf[tweet['http://itrmanager.org/property/userid']];
var geoenabled = user['http://itrmanager.org/property/geo_enabled'];
if( Boolean(geoenabled.value) ) {
// Enfin ! On a déterminé que la géolocalisation est présente...
}


alors que l'on rêve évidemment d'écrire l'infiniment plus élégant :

 




var u = tweet.user; if(u.geo_enabled){...}


par le déréférencement direct typique de Javascript dans toute sa gloire ! (Mais remplacez ici Javascript par votre langage de programmation préféré pour goûter la même amertume grammaticale.)

 



Même la proposition récente de Manu Sporny, JSON-LD, pour l'utilisation de Json comme espéranto des microformats, serait aussi à améliorer si l'on en juge par :

 




var tweet, user;
for(o in json_document) {
if(json_document[o]["@"] == 'http://itrmanager.org/tweet/12343')
tweet = json_document[o];
}
for(o in json_document) {
if(json_document[o]["@"] == tweet['twit:userid'])
user = json_document[o];
}
if(user['twit:geo_enabled']) {
// Nous y voilà à nouveau...
}


qui est bien comparable au fragment RDF/JSON précédent en termes de complexité et de désespoir syntaxique. La discussion sur ce sujet est donc à peine entamée et promet d'intéressants développements dans les mois à venir.

 



Mais au final les barrières ne sont peut-être pas seulement techniques. Pour que les entreprises et les organisations consentent à des investissements importants de temps et d'argent dans les technologies des Linked Data, elles doivent évidemment se convaincre du coût et de l'impact réel des problèmes que ces dernières permettent de résoudre. (De quoi le Web Sémantique est-il la solution ?) La difficulté de leur vendre le concept d'un format universel pour les données Web est amplifiée par l'existence antérieure de nombreux formats d'annotations autour des bases de données relationnelles et des tableurs dont la réutilisation les satisfait à peu près. Comment quantifier l'information et les connaissances qui seraient enfouies, trésors cachés, dans les yottaoctets de données qu'elles engrangent ? Et que dire des questions de confidentialité et de sécurité des données ? Les Linked Data exposent encore plus vivement les problèmes de contrôle et de confiance auquel Web et Cloud Computing sont déjà confrontés.

 



ShareThis