vendredi, septembre 01, 2006

NEPOMUK : le desktop sémantique et collaboratif

Mardi 28 février 2006

Google avait ouvert le front de la déclinaison « desktop » du moteur de recherche avec Google Desktop, promptement suivi par Yahoo, AskJeeves et Microsoft. Quelques startups se sont également lancées dans cette aventure comme Copernic, racheté par le « méta-moteur » de recherche mamma.com, X1, une des créations de l’intarissable Bill Gross d’Idealab, l’allemand Blinkx, qui s’est pratiquement reconverti dans l’analyse et la recherche des flux video après des rumeurs de rachat par News Corp., et notre très national Exalead (« le premier moteur de recherche PC conçu pour vous ! »). L’arrivée des grands moteurs de recherche sur le desktop alimente le débat sur leurs intentions stratégiques quant aux systèmes d’information des entreprises et, partant, vis-à-vis des éditeurs de progiciels qui occupent aujourd’hui ce terrain – dont Microsoft, en première ligne.

Comme c’est maintenant devenu presque une habitude, une nouvelle annonce de Google provoque un autre tollé, emmené cette fois par l’Electronic Frontier Foundation, ardent défenseur des libertés publiques et du respect de la privauté de l’information. « Consumers Should Not Use New Google Desktop » (le consommateur ne doit pas utiliser la nouvelle version de Google Desktop) annonce la bannière du site des brèves d’actualité de l’EFF. En cause dans cette nouvelle version, l’option « Search Across Computers » qui copie les fichiers du disque dur de l’utilisateur vers les serveurs de Google. (Ce que font, au passage, et volontairement, de nombreux utilisateurs de GMail utilisant le gigaoctet généreusement mis à leur disposition par le géant de Mountain View comme espace d’archivage pour leur PC entier).

À l’heure où le gouvernement américain poursuit Google en justice pour avoir refusé de livrer de l’information relative au trafic sur son site de recherche – là où Yahoo et MSN se sont exécutés sans barguigner – l’EFF s’inquiète de la concentration inédite de données privées chez Google qui résulterait de la généralisation de l’usage de cette option.

Mettant de côté les aspects juridiques de la question, quelle est, pour l’utilisateur final, l’incitation réelle à autoriser cette désappropriation même partielle de ses données professionnelles et privées ? Il me semble qu’elle tient à deux bénéfices attendus, simplifier la recherche d’information et trouver la « bonne » réponse, pour lesquels nous sommes prêts à compromettre, superficiellement à nos yeux de consommateurs, la privauté et la confidentialité de nos données. Quoi de plus simple en effet que l’interface de recherche à laquelle Google nous a habitué en à peine quelques années d’un succès météoritique ?

Beaucoup constatent qu’il est plus facile de trouver un document dans l’incommensurable océan des millions de pages du Web que dans l’enclos pourtant étroit de l’intranet d’entreprise. La force brute de l’indexation des contenus triomphe aujourd’hui de la simple localisation dans une arborescence de répertoires et de fichiers. Le second bénéfice espéré n’est, à proprement parler, qu’une promesse aujourd’hui. Google assure de ses louables intentions en affirmant que la centralisation des contenus privés lui permettra de donner de « meilleures » réponses aux requêtes des internautes.

Si ces bénéfices sont perçus comme suffisamment importants pour légitimer un basculement de rapport de forces, c’est bien que les interfaces actuellement disponibles et massivement utilisées ont peut-être atteint leurs limites. Depuis la révolution de l’interface graphique du Macintosh, dont le premier contact se fit via le Finder (merci à Bruce Horn et à Steve Capps – l’un continue à imaginer le Finder de l’avenir, iFile, et à travailler pour des startups ; l’autre après être passé chez Microsoft diriger tous les travaux relatifs aux interfaces graphiques, est consultant indépendant), la situation s’est singulièrement compliquée. L’interface et les interactions auxquelles nous nous sommes habitués sont rarement remises en cause. Les évolutions successives des systèmes d’exploitation, que ce soit d’ailleurs sur Mac, Windows, Unix/Linux, n’ont que superficiellement modifié au cours des années les principes de base mis en œuvre il y a plus de vingt ans (et même antérieurement si l’on remonte au Xerox PARC, voire à Doug Engelbart). Or le volume même des données et le changement d’échelle de communications provoqué par Internet font toucher les limites de notre desktop familier.

Instillée par le Web Sémantique de Tim Berners-Lee au W3C, l’idée que la « sémantique » peut voler au secours du desktop historique s’effondrant sous la charge est en train de prendre corps dans une nouvelle génération de projets de recherche et de développements commerciaux ou Open Source. Pour les vétérans de l’IA (l’Intelligence artificielle) et des systèmes experts, rien de réellement surprenant : les interactions avec un corpus d’information, quel qu’il soit, sont grandement améliorées si l’instrument (ici, de manière générique, le desktop) dispose de connaissances.

Une base de connaissances simplifie la recherche d’information, d’une part, et permet d’affiner le résultat des recherches d’autre part : précisément les bénéfices espérés, voire exigés, par les utilisateurs internautes d’aujourd’hui. (À mon époque antédiluvienne, et selon la formule même de mon maître en IA Allen Newell, nous étions plus radicaux encore puisque le mot d’ordre était « problem-solving as search », tout processus de résolution de problème est une recherche ! On en est aujourd’hui pas très éloigné avec Google : combien de fois pas jour l’utilisez vous ?)

Tout d’un coup, une nouvelle génération d’outils logiciels apparaissent qui se réclament de la sémantique.

Avant tout, le W3C a produit deux nouvelles spécifications, RDF et OWL, ayant trait à la description de la sémantique des données et son organisation hiérarchique – si vous voulez briller dans les salons, dites « ontologies » pour qualifier cette approche taxonomique. À l’opposé on constate aujourd’hui sur le Web le formidable développement des « tags », mots-clés étiquetant des blogs, des wikis, des courriers électroniques, des pages Web – avec des leaders d’opinion comme del.icio.us passé aux mains de Yahoo, et Technorati, par exemple. (Si vous voulez continuer à briller dans les salons, jetez négligemment dans la discussion le terme « folksonomies » pour désigner cette approche publique et répartie de la taxonomie.) Les microformats (http://www.microformats.org/) présentés comme un markup sémantique illustrent bien ces nouveaux développements qui peuvent servir de socle à des « applications sémantiques ».

Parmi celles-ci notons, par exemple, des « Finder » sémantiques, application riches, comme IRIS, développé au SRI dans le cadre d’un projet ambitieux d’agents intelligents (CALO) ; Haystack, développé au MIT par Dennis Quan, David Huynh, et David R. Karger. D’autres développements visent à appuyer des styles d’interactions déjà rendus populaires sur le Web sur une base sémantique formelle pour les étendre « naturellement » au desktop. Ainsi le « blogging sémantique » (Steve Cayzer des laboratoires HP de Bristol et également SWAD-Europe) dans lequel des méta-données insérées au fil de l’eau dans les blogs, et dans leurs flux RSS (ils sont justement au format XML et RDF !) permettent d’en traiter automatiquement le contenu.

Ainsi également le « wiki sémantique » qui suggère de lui-même les liens manquants et les commentaires appropriés (voir les projets Platypus, Rhizome, WikSAR, et de nombreux autres). L’engouement actuel pour les technologies Web 2.0 laisse aussi envisager des desktops sémantiques abolissant réellement la distinction entre information locale et information distante sur le Web, sans centralisation à la Google : le cocktail NumSum, Writely, WikiCalc, Clipmarks, Jot, Plum, Flickr, Twiki, par exemple, permet déjà de se constituer un desktop hébergé (très orienté « office » en l’occurrence) dont la sémantique est véhiculée, pauvrement mais de manière homogène et surtout partageable, par de simples tags. Microsoft n’est pas en reste : mylifebits se propose de stocker la vie « numérique » de l’utilisateur au fil de l’eau en y faisant large place à la sémantique.

Ces sujets sont, pour une fois, activement explorés en Europe et se résument de ce côté de l’Atlantique en un mot : NEPOMUK !

Dans le cadre du sixième programme de l’Information Society Technologies de la Commission européenne, NEPOMUK a démarré le 1er janvier de cette année. NEPOMUK (Networked Environment for Personalized, Ontology-based Management of Unified Knowledge, il fallait y penser !) a déjà trouvé son surnom : « Social Semantic Desktop ». Il vise à élaborer cette nouvelle génération de desktop sémantique, aux visées collaboratives de surcroît, qui d’après l’annonce « révolutionnera non seulement le traitement individuel de l’information, mais généralement toutes nos interactions et notre travail en équipe ». Vaste programme ! Mandriva vient d’annoncer sa sélection comme partenaire dans NEPOMUK auprès des 16 entreprises, laboratoires de recherche académique et autres universités fondateurs du projet.

Souhaitons bonne chance au projet et nourrissons l’espoir de voir dans quelques années un desktop sémantique collaboratif sur tous nos écrans de PC !

ShareThis