jeudi, mars 31, 2011

Les résultats que vous n'attendez pas

Vendredi 1er avril 2011.



Cette chronique urgente est un avertissement de la plus grande importance adressé à tous les lecteurs. Vous êtes instamment priés, toutes affaires cessantes, de lire intégralement cette alerte avec la plus grande attention.

 



En 2010 Google avait lancé avec succès que l'on connaît le service Google Instant. Cette amélioration notable de son moteur de recherches déclenchait l'affichage des résultats au fur et à mesure même que l'internaute tapait sa requête. En prédisant ainsi la question, Google Instant permet désormais de gagner de 2 à 5 secondes dans chaque consultation du moteur.

 



À l'heure qu'il est, vous êtes probablement familier avec le nouveau service du géant de Mountain View, Google Answer. Le service, tout récemment qu'il fut mis en oeuvre, sert déjà des millions de requêtes à l'heure où vous lisez ces lignes. Pour ceux qui ne l'auraient pas encore vu, Google Answer, installé dès que s'affiche la page d'accueil du moteur de recherches dans le navigateur Web, répond à la question de l'internaute. Plus précisément, Google Answer répond à la question de l'internaute exactement cinq secondes avant qu'il ne l'ait posée.

 



Lorsqu'ils l'essayent pour la première fois, la plupart des gens ont le sentiment de jouer à un jeu très curieux, façon Jeopardy!, dans lequel l'objectif est de taper en 5 secondes la requête dont les résultats sont soudainement affichés. Mais si vous essayez de ne pas jouer le jeu, vous découvrirez rapidement que vous n'y parviendrez pas. Si vous vous décidez pour une requête avant de lire les résultats, ceux-ci apparaissent instantanément à l'écran et, quelle que soit votre rapidité à dactylographier, vous n'arriverez pas à presser le return final avant que cinq secondes exactement ne se soient écoulées. Si, au contraire, vous attendez l'affichage des résultats avec la ferme intention de ne rien demander, alors la page Web restera blanche. Ainsi quoique vous fassiez, les résultats sont présentés exactement cinq secondes avant que vous ne tapiez votre requête. Il n'y a pas moyen de tromper Google Answer.

 



Le coeur de la technologie de Google Answer serait une déclinaison de Google Prediction API, la collection d'algorithmes d'apprentissage automatique (machine learning) en SaaS, affinée par l'un des ingénieurs des Google Labs récemment débauché de l'équipe Watson d'IBM, le premier programme d'ordinateur vainqueur du jeu Jeopardy!. Dans un communiqué de presse rédigé à la hâte, Thieu-Ty Mo-Ling de Microsoft Bing prévient que « toutes les applications de la technologie ne seront vraiment comprises que lorsque l'on réussira à augmenter le délai négatif (l'endochronie) séparant la requête des résultats bien au-delà des cinq secondes, sujet sur lequel nos équipes de Microsoft Research sont très avancées dans le cadre du projet au nom de code Bing Intent ».

 



Mais là n'est pas le sujet le plus urgent de cette alerte publique.

 



Le problème immédiat est d'ordre philosophique : Google Answer démontre que le libre arbitre n'existe pas. D'évidence le concept de libre arbitre a fait l'objet d'innombrables critiques depuis des siècles. Qu'elles soient théologiques, philosophiques, psychanalytiques ou, plus récemment, fondées sur la physique quantique et la logique formelle, ces critiques étaient jusqu'alors littéralement irréfutables mais nul n'était prêt à en accepter vraiment les conclusions. Ce qui a toujours manqué par le passé était une démonstration : Google Answer l'assène aujourd'hui.

 



Le second problème, conséquence du premier, est d'ordre épidémiologique et pathologique. Dans le cas typique observé, l'internaute joue quelque temps avec Google Answer, le montre et en parle à ses amis sur Facebook — des applets Google Answer sont rapidement apparues pour iPhone/iPad, pour Facebook et pour Twitter, grâce auxquelles vos posts sont en ligne cinq secondes exactement avant leur rédaction — tout en expérimentant différents schémas pour tenter de tromper le service. Mais progressivement l'internaute perd tout intérêt pour le site Web, réalisant sa signification brutale. Souvent, en l'espace de quelques jours, l'internaute, ayant compris qu'aucun de ses choix n'a plus d'importance, sombre d'abord dans une forme d'apathie puis dans des troubles plus profonds qui se manifestent par un déficit croissant de la capacité de reconnaissance. Environ la moitié des utilisateurs de Google Answer sont hospitalisés avec des alexies agnosiques, ou des agnosies prononcées : l'incidence de cas auparavant rarissimes d'agnosies associatives et intégratives double maintenant toutes les heures dans tous les grands centres hospitaliers urbains !

 



Partout les médecins, instruits en urgence par les docteurs Chiang et Asimov, co-directeurs du Global Outbreak Alert and Response Network de la World Health Organization, font de leur mieux pour dialoguer avec les patients encore en état de soutenir une conversation. « Nous vivions et jouions tous actifs et heureux en ligne avant et nous n'avions pas plus notre libre arbitre que maintenant : pourquoi faudrait-il que cela change aujourd'hui ? », leur disent-ils. Invariablement les patients leur opposent qu'aujourd'hui ils savent et ne peuvent souffrir de faire semblant que leurs vies soient normales ; souvent ce sont leurs dernières paroles avant de tomber dans un mutisme symptomatique.

 



Le Ministre de l'économie numérique et le directoire de l'Hadopi, dans une conférence de presse donnée à la hâte ce matin, dénoncent l'impérialisme culturel américain et contre-argumentent que le nouveau service de Google est une provocation inqualifiable à l'exception culturelle de la France et démontre précisément, au contraire, que le libre arbitre existe bel et bien puisque c'est bien de leur propre volonté que les internautes ajustent leurs comportements. Un automate, une machine ne se décourage jamais, il faut une volonté vivante en revanche pour choisir l'agnosie mutique face à Google Answer. Le Ministre de la Culture, en accord avec la Présidence de la République, après avoir rappelé que le libre arbitre est issu de la tradition théologique patristique française et, en conséquence, partie intégrante du patrimoine culturel national, a annoncé que le Parlement allait légiférer rapidement, sur proposition du Secrétariat à la Répression nationale, pour faire de l'agnosie un délit et prévoir des sanctions immédiates.

 



Mais bien sûr, dénoncent les députés de l'opposition — du moins ceux qui ne se sont pas connectés ces derniers jours — le raisonnement du gouvernement est, pour eux, « spécieux ». Toute forme de comportement, disent-ils, est évidemment compatible avec le déterminisme. Un système dynamique peut se stabiliser à un point d'équilibre dans un bassin d'attraction alors qu'un autre poursuit à l'infini une trajectoire chaotique sans qu'aucun des deux n'échappent au déterminisme. « Le gouvernement s’empresse ainsi de prétendre que le comportement de l’internaute relèverait encore du libre arbitre alors que nul ne conteste aujourd’hui l’ampleur du malaise démocratique qui frappe notre pays : la montée de l’abstention, le score préoccupant de l’extrême droite, la coupure grandissante entre le peuple et les élites. Il n’est que temps de refonder le déterminisme » a ainsi conclu le porte-parole.

 



Quant à cette mise en garde pressante, elle vous est transmise du laboratoire Bing Intent de Microsoft Research depuis un an exactement dans votre avenir, en 2012 de l’ère du pre-chaos numérique. C'est le premier message parvenu à destination depuis que les progrès des datacenters du cloud computing Azure permettent maintenant d'atteindre des endochronies à l'échelle de la dizaine de mégasecondes. D'autres alertes et de nouveaux avertissements devraient suivre incessamment.

 



Notre message crucial est le suivant : internautes de tous les pays, agissez et vivez comme si le libre arbitre existait. Il est essentiel que vous continuiez à vous comporter comme par le passé, comme si vos décisions et vos connaissances importaient même si vous savez aujourd'hui que non. La réalité n'est pas ce qu'il est important de préserver ; seuls comptent vos questions, vos comportements, vos cookies, vos adresses IP, votre consommation et vos paiements en ligne : eux-seuls peuvent vous préserver du coma cognitif numérique.

 



Et pourtant nous-mêmes savons depuis un an que, puisque que le libre arbitre est illusoire, l'étendue et la gravité de cette épidémie d'agnosie associative sont prédéterminées. Personne n'y peut rien, hélas — vous n'êtes pas libre de choisir les effets de Google Answer sur votre état d'esprit. Certains d'entre vous vont y succomber rapidement, d'autres couleront plus lentement, de rares individus survivront, durablement affectés et amoindris, et le présent message dans cette bouteille à la mer n'altèrera en rien la proportion des uns et des autres. Pourquoi donc, en pleine connaissance de cause, le lançons-nous cependant aujourd'hui ?

 



Parce que, voyez-vous, nous n'avons pas le choix.

 



vendredi, mars 11, 2011

Un Prix Turing probablement approximativement correct


Il y a exactement vingt-cinq ans, une nouvelle discipline se détachait du substrat académique déjà bien établi de l'Intelligence Artificielle au sein duquel elle avait mûri. Résultat de deux ateliers de travail organisés au tout début des années 1980, la publication du livre de référence Machine Learning par les fondateurs de la spécialité, Ryszard Michalski (1937-2007), Jaime Carbonell et Tom Mitchell et le lancement d'un nouveau journal scientifique du même nom en 1986, signalaient la maturité et l'homogénéité des travaux de nombreuses équipes universitaires.

 



C'est dans ce contexte d'émergence enthousiaste d'un programme original de recherche, qu'un spécialiste de la combinatoire et de la complexité algorithmique, Leslie Valiant, faisait paraître un article théorique dont la portée devait s'étendre sur plusieurs décennies, Une théorie de « l'apprenable » (A Theory of the Learnable). Un examen rapide de la liste impressionnante de ses publications montre d'ailleurs que Valiant a certainement l'art de ciseler les titres de ses papiers scientifiques : On Time versus Space, Negation can be exponentially powerful, Optimally universal parallel computers, Rationality, Cognitive computation, Circuits of the Mind, Robust Logics, Knowledge infusion, Evolvability et le borgésien Accidental algorithms ! Sa contribution à l'informatique ne se limite cependant pas aux seuls algorithmes d'apprentissage automatique mais se ramifie au calcul parallèle (A scheme for fast parallel communication) et aux architectures matérielles (General purpose parallel architectures). C'est ce chercheur tout à fait original, aux travaux fondateurs, enseignant à Harvard depuis plus de vingt ans, que le prestigieux Prix Turing vient récompenser pour 2010.

 



Dès la naissance de la discipline du Machine Learning, Valiant lui donnait donc un fondement théorique novateur, connu depuis sous le nom singulièrement curieux d'algorithmes probablement approximativement corrects (PAC). L'idée directrice étant de se concentrer sur l'amélioration de l'efficacité (en temps et mémoire) des algorithmes d'apprentissage automatique, l'approche PAC s'attache à donner une caractérisation approximative, mais précise, des concepts à apprendre et mesure (pour l'améliorer) la probabilité d'atteinte de la cible, dans cette marge d'approximation, par l'algorithme en question. Saluée comme révolutionnaire à l'époque, cette conception théoriquement fondée a démontré depuis sa validité pratique dans de nombreuses applications dans autant de domaines industriels.

 



Pour retracer à grandes lignes l'évolution du programme de recherche du Machine Learning, de relativement informels qu'étaient les premiers travaux de recherche avant Valiant — souvent des exposés commentés de quelques applications d'une méthode d'apprentissage à de petit jeux de données ou à des problèmes volontairement simplifiés — les papiers, postérieurs à la théorie de Valiant, se caractérisèrent par un formalisme plus recherché. L'idée centrale qui s'imposait alors, déjà proposée par Herbert Simon (1916-2001) dans Why Should Machines Learn? (encore un titre somptueux !), voulait que l'objectif de l'apprentissage soit l'amélioration effective de l'exécution d'une tâche donnée. Dès lors toute recherche algorithmique sur l'apprentissage automatique devait également prendre en compte une ou plusieurs tâches et un système d'exécution de ces tâches, pompeusement nommé système performatif (performance system). Un second courant, venu des recherches expérimentales menées en psychologie, porté par Dennis Kibler et Pat Langley dans Machine Learning as an Experimental Science, précisait ensuite les techniques d'expérimentation contrôlée à appliquer aux problèmes d'apprentissage automatique.

 



Ce mouvement expérimental, auquel la constitution progressive par David Aha d'un référentiel de jeux de données standardisés, le Machine Learning Repository de UC Irvine, a également fortement contribué en permettant de comparer les algorithmes sur les mêmes jeux de données, était aussi caractérisé par l'accent mis sur les méthodes dites symboliques. Par contraste avec les méthodes numériques, elles visaient à apprendre des connaissances dont la représentation naturelle était directement intelligible : règles de production, arbres de décision, formules de logique, etc.

 



Mais au fur et à mesure que croissait l'accent mis sur l'importance du système performatif, les études de Machine Learning visèrent de plus en plus large et inclurent progressivement toute méthode permettant, avec l'expérience, d'améliorer la performance. Ainsi d'autres idées issues de la reconnaissance des formes et des images, des approches probabilistes et statistiques, ou à base de cas (instance-based learning) poussèrent petit à petit les idées de Valiant vers le fond de la scène. Paradoxalement, la formalisation des jeux de données aidant, la variété des méthodes employées entraînait également une simplification des tâches auxquelles elles étaient appliquées — ce qui en facilitait certes la comparaison, mais donnait une importance hors de proportion aux tâches de classification et de régression. Aujourd'hui encore, l'algorithme AdaBoost de Yoav Freund et Robert Schapire (1999) et la prolifération de ses déclinaisons, par exemple, a donné naissance à une branche entière de recherches très active sur ce qu'il est convenu d'appeler les systèmes collectifs d'apprentissage (Ensemble-Based Learning). Dans le même temps, la représentation des données et des connaissances apprises s'appauvrissait : les listes attribut-valeur et les formules du calcul propositionnel devenaient le modèle formel prépondérant dans les implémentations. Cette opacification progressive des connaissances reflétait aussi leur rôle décroissant dans l'élaboration et la mesure des algorithmes d'apprentissage automatique.

 



La reconnaissance actuelle de l'importance des travaux de Valiant jette un nouvel éclairage sur cette évolution, parfois radicale, par rapport aux premiers objectifs du Machine Learning. À l'heure ou l'hypercroissance des volumes de données liées au Web pose avec une nouvelle acuité la question de faire sens — courant de réflexion identifié sous la dénomination de Big Data et mené tambour battant, entre autres, par Microsoft, Google, et la communauté Hadoop — la théorie de Valiant prend alors un relief nouveau. Terrence Sejnowski du Salk Institute, dans son allocution Graeme Clark, hier encore, appellait de ses voeux à une intensification de la recherche sur les nouvelles architectures parallèles — matérielles et logicielles — pour percer la barrière calculatoire que représente encore le cerveau humain malgré le succès récent de Watson ou les 2,57 petaflops/s de Tianhe-1A.

 



Comme il y a vingt cinq ans, exactement les sujets de prédilection du Prix Turing 2010.

 



ShareThis