Tribune ITR Manager

dimanche, septembre 30, 2012

La Charge de la preuve

Largement passés inaperçus, tant les médias entretiennent une distance avec les mathématiques considérées comme rebutant les audiences populaires, les décès récents, à quelques mois d'intervalles, des grands mathématiciens Nicolaas Govert de Bruijn (1918-2012) et William Thurston (1946-2012) auraient du percer le voile épais dont il est conforme d'étouffer l'esprit réputé pusillanime du grand public. (À ce sujet, il serait innovant et probablement salutaire d'essayer de renverser la tendance à l'abrutissement des masses en diffusant quotidiennement la lecture d'un chapitre du Théorème vivant du médaillé Fields Cédric Villani avant le tunnel publicitaire de 20h40 !) Si les travaux théoriques de De Bruijn et Thurston en analyse et combinatoire (#) et en topologie et géométrie (#), respectivement, ne sont guère accessibles aux lecteurs régulier de I Can Haz Cheezburger, ils ont néanmoins donné lieu à des applications très concrètes et devenues fondamentales en informatique.

Ces éminents mathématiciens ont notamment tous deux mené une réflexion sur la notion de preuve en mathématiques (#) et sur sa relation avec celle de vérification d'un programme informatique. À une époque où l'ubiquité des logiciels et des équipements informatiques affleure dans les moindres échanges en société, celle-ci transforme et redéfinit la notion même de risque. Comme le prévoyait déjà le sociologue Ulrich Beck dans Risikogesellschaft, le risque intermédié par l'envahissant système technique est devenu invisible : nos cinq sens ne sont plus d'aucun secours pour nous guider quant à l'innocuité de notre alimentation bio ou OGM, quant aux dangers réels d'une politique industrielle du nucléaire aussi bien que de l'exposition de données privées sur le Net ou de la sécurité de nos transactions bancaires même les plus communes. Dans les secteurs de l'informatique triomphante, la mutation silencieuse du risque et la dépendance croissante de la société à aux technologies d'automatisation fut largement illustrée par le psychodrame à épisodes du « Bug de l'an 2000 ». Il apparut, dans ce cas, que toutes ces inquiétudes, soigneusement entretenues dans les dernières années du XXe siècle, n'étaient heureusement pas justifiées. En revanche, elles illustrèrent précisément la difficulté de « l'honnête homme » à formuler un jugement sur la nature et la qualité des risque encourus. En conséquence, le citoyen, l'usager, l'utilisateur quelque soit le rôle qu'il joue, est de plus en plus réduit à s'en remettre aux jugements d'experts, dont l'autorité, bien que représentant le dernier recours face à l'incommensurabilité commune du risque moderne, est de plus en plus critiquée publiquement tant s'amenuise corrélativement la confiance dans les progrès scientifiques et la « moralité » des milieux techniques. Alors — par défaut, ou par dépit ? —, l'impression que l'abondance de données, la confiance dans les nombres et le nombre, pourrait nous sortir de ce dilemme conduisit ces mathématiciens et d'autres grands pionniers de l'informatique à s'intéresser à la question de la preuve des programmes. Si l'on pouvait mathématiquement prouver un logiciel, cette vérification permettrait de quantifier explicitement le risque dans son usage et de mitiger l'épineux problème de la confiance dans le système.

Notons que cette vision irénique du quantitatif comme arbitre bienveillant rapiécant le tissu effrangé de la confiance entre acteurs humains des systèmes techniques est aujourd'hui sensible dans le mouvement Big Data, dans lequel, à l'extrême, rien moins que la vérité d'un business ou de l'action d'un gouvernement émerge de la volumétrie statistique des données — plus grand le datacenter, plus gros le volume de données et plus vraie la parole oraculaire du Big Data (Big Daddy ? #). Naguère, aux origines (militaires) des ordinateurs à programmes stockés, l'instant de réalisation cathartique de la crise du logiciel survint sans nul doute à la conférence de Garmisch-Partenkirchen en 1968 — où il n'est pas inutile, sinon patriotique, de rappeller le rôle important joué par le professeur Louis Bolliet (#) — , sur le software engineering, un néologisme qui devait déclencher d'âpres polémiques. Devant la complexité déjà atteinte par les systèmes techniques déployés à l'époque dans les banques, les télécommunications, ou la défense, il fallait s'armer d'outils et d'instruments d'analyse et d'ingénierie si l'on voulait déminer ce qui était déjà perçu comme une crise de confiance. Il en sortit la programmation structurée dont les champions Edger Dijkstra (1930-2002) et Harlan Mills (1919-1996) devaient s'affronter avec acrimonie quelques années plus tard sur l'impact social du software engineering au sein des organisations.

Les méthodes de test et de revue de code développés dans les années 1970 (#) renvoyaient explicitement la question de la fiabilité des logiciels à celle de la fiabilité des « experts » chargés de les appliquer. D'autres, parmi lesquels De Bruijn, cherchèrent à mettre en oeuvre des méthode déductives, issues de la logique mathématique, pour vérifier les programmes. Contemporains du développement, principalement européen — comme alternative à l'américain FORTRAN ? —, du langage de programmation ALGOL (#), les premiers appels à une formalisation mathématique de la vérification des programmes furent entendus dans les années 1960. Largement amplifiés par l'activisme de John McCarthy (1927-2011) disparu il y a presqu'un an, l'idée que l'informatique devait prendre comme modèle la physique mathématique fit son trajet dans les esprits de la communauté. L'un des premiers programmes écrits par McCarthy en LISP, le langage de programmation fonctionnel directement inspiré de la logique mathématique qui l'a rendu au moins aussi célèbre que ses travaux au MIT sur le timesharing — et dont un des gardiens du temple, Dan Weinreb (1959-2012 #), co-initiateur de la norme Common Lisp vient également de disparaître il y a quelques semaines — était un vérificateur de preuves.

Dans le même temps, et dans le mouvement inverse, De Bruijn démontrait l'intérêt de l'ordinateur dans le travail du mathématicien et, en particulier, dans la question duale de celle posée par McCarthy : de la vérification automatisée de la preuve mathématique. Son système, Automath (#) 1967-1975, reste le précurseur de la lignée des « assistants de preuves » qui avec NuPRL (#) et Coq (#), par exemple, sont devenus d'usage presque courant (#). Coq dont il n'est pas inutile, sinon patriotique, de rappeller que l'histoire a démarré en 1984 avec Thierry Coquand et Gérad Huet.

On à peine à imaginer aujourd'hui, à l'époque où le proof-carrying code (#) fait partie des mondanités échangées par les Microsoft dans tous les salons où s'élaborent les doctrines sociales du développement de logiciels, le caractère révolutionnaire des propositions d'un McCarthy et d'un De Bruijn. Tous deux furent l'objet de critiques nourries tant des mathématiciens que des hommes de l'art de la programmation et de l'informatique, à l'exception que quelques rares visionnaires comme Donald Knuth qui professe toujours une grande admiration pour De Bruijn et McCarthy (#). John Markoff raconte que Knuth se glissait régulièrement tous les soirs pour des séances de programmation nocturnes dans les laboratoires du Stanford AI Lab (SAIL #) créé par John McCarthy, arrivé du MIT à Stanford en 1962. Des dizaines d'années plus tard, des 1.700 utilisateurs du monumental PDP, c'était lui qui avait laissé le plus de fichiers.

Plusieurs grands pionniers attachèrent leurs noms à cet effort de formalisation logico-mathématique de la preuve de programmes : Peter Naur, Robert Floyd (1936-2001), Sir Charles Antony Richard Hoare parmi les plus connus. Du côté de l'instrumentation des mathématiques par les ordinateurs et les programmes, en revanche, les débats furent plus houleux dans les années 1960 et 1970. Après la conférence fondatrice de l'Intelligence Artificielle à Dartmouth en 1956, et la présentation par Allen Newell (1927-1992) et Herbert Simon (1916-2001) de leur Logic Theory Machine, un « prouveur de théorème », deux camps s'affrontèrent. Ceux qui, comme McCarthy et son ancien pair au MIT Marvin Minsky, imaginent doter la machine d'une intelligence différente de l'humaine, et ceux qui, comme Newell et Simon, s'attachent plutôt à l'explicitation de l'intelligence humaine par sa simulation (émulation ?) en machine. De même, en 1976, la démonstration assistée par ordinateur du fameux théorème des quatre couleurs par Appel et Haken (#) fut accueillie glacialement par la communauté des mathématiciens. Enfin les collègues de jadis, McCarty et Minsky, devaient s'affronter sur l'usage de la logique formelle pour représenter connaissances et raisonnements, le groupe de la côte Ouest devenu ardent zélateur du principe de résolution (#) du philosophe et mathématicien John Alan Robinson, point culminant de travaux entamés, sans vouloir remonter à Gerhard Gentzen (1909-1945), par les mathématiciens logiciens Dag Prawitz puis Hilary Putnam et Martin Davis, d'une part, et le groupe de la côte Est, avec Minsky et Seymour Papert qui en contestaient (bruyamment !) l'universalité, d'autre part. La contestation fut mise en sourdine en 1974 par un papier de Michael Fisher et Michael Rabin (#) sur « l'exponentialité du problème de la décidabilité de l'arithmétique de Presburger », une arithmétique simplifiée avec laquelle Martin Davis avait inauguré les contributions des mathématiciens logiciens à la question de la preuve des programmes. Il n'est pas inutile, sinon patriotique, de rappeler que de l'intérêt pour l'automatisation de la preuve des logiciels par la logique formelle, dérivait celui spéculaire pour la programmation logique, dans laquelle Alain Colmerauer s'illustrait avec Prolog qui séduisit le Japon le temps d'une génération (la cinquième).

Malgré les critiques contre la vérification formelle des programmes, renouvelée la décennie suivante par Alan Perlis (1922-1990), Richard Lipton, Richard DeMillo, puis par James Fetzer, le financement des recherches, notamment par les agences militaires américaines, sur ce sujet ne se tarissent pas au nom de la défense des intérêts nationaux. Nonobstant la différence établie entre les aspects « sociaux » de la pratique de la preuve et de sa vérification dans son avatar mathématique et la rigueur logico-déductive désirable pour son alter ego informatique — que l'on contraste le processus et la réception de la preuve d'Appel et Haken avec ceux de la preuve du théorème de Fermat par Andrew Wiles quinze ans plus tard — les méthodes formelles, malgré les théorèmes d'incomplétude de Kurt Gödel (1906-1978) — il n'est pas inutile, sinon patriotique, de rappeler aussi les travaux originaux de Jacques Herbrand (1908-1931) sur ce même sujet à la même époque — assurent aujourd'hui pour beaucoup le travail de Sisyphe d'allègement de la charge de la preuve.

dimanche, septembre 02, 2012

L'importance de la pensée systémique quantitative pour le Big Data

Introduction

Le constat que l'hyper-développement d'Internet et du Web permet aujourd'hui la production et le stockage de quantités inouïes de données est devenu une banalité évidente. L'ingéniosité linguistique du marketing américain n'a guère tardé à forger un raccourci : « Big Data », à la saisissante concision, pour circonvenir ce processus (#).

Facebook digère quotidiennement 2,5 millions de « contenus », plus de 500 téraoctets (10 puissance 12) de données (#), et s'enorgueillissait récemment d'opérer le plus gros cluster Hadoop de la planète (100 petaoctets, 10 puissance 17). Le Sloan Digital Sky Survey (#) lancé en 2000 collecte plus de 200 gigaoctets de données astronomiques par nuit, toutes accessibles sur le Net. La découverte du boson de Higgs (#) atteint à de nouveaux records de volume de données scientifiques. Le système automatisé de détection de fraude de FICO (#) travaille sur 2,1 milliards de comptes en ligne — son l'infrastructure (Decision Management Architecture) est, par acquisition et intégration successives, un avatar bien lointain et singulièrement enrichi de la modeste contribution technologique aux systèmes experts de la startup paléo-historique co-fondé par l'auteur de ces lignes, Neuron Data. La recherche biologique et médicale produit couramment des petaoctets de données liées aux génomes, protéomes, métabolomes et autres « multi-omes » dont l'intégration (#) et la visualisation (#) deviennent problématiques. La grande distribution traite des millions de transactions par heure en ligne (#). Et les rythmes s'accélèrent de jour en jour.

La réponse actuelle au déluge des données est essentiellement de nature technologique (computational) : une expérimentation frénétique et la mise au point de méthodes combinatoires et algorithmiques, où l'unité est le milliard (#) adaptées à ce nouveau contexte quantitatif. Elle n'est nulle part plus apparente que dans le renouveau de la recherche théorique d'une part sur les thèmes du stockage, de l'optimisation et de la transmission au coeur de l'infrastructure naissante du cloud computing, et, d'autre part, sur la formalisation logique et mathématique d'algorithmes que l'on sait d'avance indispensables à la phase d'analyse des données que le mouvement Big Data inaugure. Prosaïquement, le succès croissant de R (#) est un bon indicateur (statistique !) de cette réponse.

S'il est indéniable que cette compréhension du phénomène Big Data et de son impact est très importante, elle n'en reste pas moins insatisfaisante par sa paradoxale étroitesse de vue. Ne faudrait-il pas, en effet, viser à un modèle conceptuel de l'intégration à toutes les échelles, de celle de l'octet matériel, de la donnée atomisée, peut-être anonyme, à celle de l'agent individuel qui la produit ou la consomme, jusqu'à celles du groupe, de la société, de l'écosystème dans lesquels ces agents eux-mêmes interagissent ? Les Big Data éclairent crûment le problème de la modélisation de la complexité à toutes les échelles. Ne signaleraient-elles pas ainsi le déploiement à venir d'une pensée systémique dont les racines plongent, comme elles, dans l'histoire même de la technique ?

Un canevas théorique pour le stockage et le calcul réparti

En octobre 1986, la congestion brutale de NSFNet — la phase expérimentale de la colonne vertébrale d'Internet, le réseau backbone — qui voyait brutalement son débit chuter de 32 kbits/s à 40 bits/s (#), provoquait l'effondrement le l'Internet naissant. Le vénérable protocole TCP/IP qui jusqu'à nos jours continue de servir la transmission des paquets de données sur le Net cherche à réconcilier les objectifs contradictoires de l'utilisation maximale des canaux de transmission — maintenir « en vol » le plus grand nombre de paquets — et de minimiser le délai de transmission de bout en bout — (et retour) : la « latence » perçue par les utilisateurs. Entre points de départ et de destination, le goulot d'étranglement est constitué par le lien de transmission de plus faible débit. À mesure que l'on augmente le nombre de paquets en vol, le débit général augmente et le délai de transmission reste rapide, puis une fois le débit du goulot d'étranglement atteint le débit reste fixe et les délais se mettent à augmenter. Les paquets s'empilent dans des mémoires cache présentes à chacun des noeuds du réseau en attente de leur transmission sur le lien suivant. Une fois ces mémoires cache pleines, les paquets entrants sont rejetés provoquant des ré-émissions en rafales et la congestion se produit de façon épidémique. Ces difficultés conduisirent à la mise en place d'algorithmes nouveaux de gestion des mémoires cache, connus sous le nom d'active queue management, et, en particulier, de l'algorithme dit random early detection de Van Jacobson et Floyd (#).

Cet épisode est une illustration typique d'une machine à feedback complexe nous ramènerait directement aux balbutiements de la cybernétique de Norbert Wiener (1894-1964) du Communication and Control in the Animal and in the Machine, qui se caractérise, d'une part, par « la biologisation de la machine et la mécanisation de la biologie » comme dit Seymour Papert (Épistémologie de la cybernétique) et, d'autre part, par le passage d'un modèle de la machine dont le fonctionnement est dominé par la transformation et la transmission d'énergie à celui dans lequel, à côté de ce flux d'énergie, apparaît un flux d'information qui devient progressivement plus important — jusqu'à réduire les échanges énergétiques à un rôle auxiliaire. On peut alors voir dans le logiciel et notamment dans les logiciels répartis iconiques du cloud computing, MapReduce, Hadoop, Pregel, machines virtuelles, bases de données NoSQL, des expressions particulièrement développées de ces machines informationnelles.

Notons qu'en raison du peu de discipline dans l'upgrade des algorithmes d'AQM dans les routeurs du Net et de l'accroissement massif des mémoires cache, rendu possible par la volonté mal encadrée de diminuer le nombre de paquets rejetés et par le prix décroissant de la mémoire physique ; mémoires cache maintenant proliférantes dans tous les équipements terminaux et coeur de réseau, on constate à nouveau des problèmes de congestion massive après une période d'accalmie temporaire (#).

C'est une forme de la malédiction de la non-linéarité dont les études originelles dans les domaines de la mathématique de la physique des turbulences, de l'hydrodynamique et de l'évolution des populations en biologie et en sciences de l'environnement ont donné naissance à la théorie des comportements chaotiques, véritable succès des sciences de la complexité. (cf. Stuart Kauffman, Mitchell Waldrop, Melanie Mitchell pour des exposés récents.)

Et de fait ce sont les simulations sur ordinateur qui, dès l'origine, ont eu la plus grande influence sur les début du développement des sciences de la complexité. Enracinées dans les travaux fondamentaux et transdisciplinaires de l'IAS de Princeton, comme le raconte George Dyson dans Turing's Cathedral. C'est sur ce campus, prolongement séculier de l'univers mental de John von Neumann (1903-1957) où séjournèrent Einstein, Turing, Borel, Gödel, Weyl, Atiyah et tant d'autres, que se constituèrent les bases modernes de la compréhension de la programmation, des automates et de l'ordinateur, des réseaux de télécommunications, des mathématiques de la complexité et des réseaux et de leurs applications à la sociologie et à l'économie aussi bien qu'à la physique quantique et à la biologie.

Les sciences de la complexité montrent que la formidable diversité et le comportement complexe des systèmes adaptatifs à l'échelle globale, y compris l'émergence de structure à plusieurs échelles et d'une organisation individuelle, peuvent émaner de règles très simples régissant les interactions des constituants de ces systèmes. Cette confirmation d'abord expérimentale, appuyée sur des simulations par ordinateur, stimulant un renouveau de recherches théoriques d'inspiration mathématique et biologique est aujourd'hui à l'oeuvre dans des secteurs aussi variés que la biologie et les sciences de la santé, la sociologie et l'économie.

Si cette approche épistémique du phénomène actuel des Big Data est correcte elle met en avant une mise en abyme de la machine, substrat des simulations de systèmes vus eux-mêmes comme des machines pour accéder à une compréhension de l'objet technique universel qu'elle représente. Des idées tout à fait dans la lignée des projets de théorie des machines de pionniers français dont l'oeuvre peu connue aujourd'hui mériterait une nouvelle visite à la lueur de la maturité des sciences du complexe : Jacques Lafitte (1884-1966) et la « mécanologie » (publiée en 1932), Louis Couffignal (1902-1966) préfigurant l'analyse fonctionnelle de Wiener dès 1938, Jacques Riguet et la théorie algébrique des machines. Ce dernier fut d'ailleurs proche de Benoît Mandelbrot (1924-2010) et de William Ross Ashby (1903-1972) tous deux grands contributeurs à l'école de cybernétique américaine et dont l'influence est présente dans les sciences de la complexité. « Sous l'influence des progrès des sciences mécaniques et physiques, [...] la machine,d'abord considérée comme un transformateur de mouvement, s'est trouvée successivement considérée comme un transformateur de forces, puis d'énergie. Il est aisé de voir que ces définitions différentes reposent toutes sur la considération de certains phénomènes dont la machine est le siège, et non sur la considération de la machine elle-même en tant que phénomène » écrit, par exemple, Lafitte en 1932. C'est donc bien la mise en abyme qui constitue le moment fondamental de la modélisation dans l'essai de théorisation des machines.

Universalité du changement d'échelle dans les réseaux

Pour poursuivre dans cette direction, le cadre théorique qui manque aujourd'hui pour comprendre les Big Data et, en particulier, les mettre au service de la prédiction (#), serait à chercher dans dans certains résultats des sciences de la complexité, notamment dans les lois d'échelle issues des recherches académiques récentes dans ce domaine.

L'exemple de l'utilisation du moteur de recherches de Google pour le suivi et la prédiction de la diffusion de la grippe sont maintenant bien connus (#). La corrélation entre haut PNB et ratio élevé de requêtes Google liées à l'avenir sur celles liées au passé ont également fait l'objet d'une analyse étayée (#). Global Pulse (#) des Nations Unies est un projet d'exploitation des qualités prédictives des Big Data pour le développement humain dans les régions défavorisées. Et les réseaux sociaux deviennent des champs d'études sociologiques théoriques sans même avoir à visiter les Tristes Tropiques (réalisant le fameux « je hais les voyages » que plaçait d'ailleurs Claude Levi-Strauss (1908-2009) en guise d'incipit à ces mémoires).

La demande de cadre théorique est devenue tellement pressante devant le rythme de l'accumulation des Big Data, que pour l'analyste le choix même du modèle statistique pertinent à appliquer pour exploiter le tsunami de données est en train de devenir elle-même une question préalable de « méta modélisation » théorique complexe ! Un travail de Schwartz, Bradlow et Fader, de l'Université de Pennsylvanie publié en juin dernier (#), par exemple, pose la question de quel modèle statistique choisir pour analyser un jeu de données de grand volume dans un objectif business explicitement énoncé ? On franchit ici une étape supplémentaire sur le chemin des Simulacres et Simulations de Jean Baudrillard.

Qu'apporte ici le canevas théorique esquissé ci-dessus ? Sans rentrer dans le détail mathématique de leur formalisation, dont la genèse est en soi pleine d'enseignement, nous nous contenterons de citer quelques illustrations de l'universalité de ces lois de changement d'échelle et d'indiquer leurs connivences avec les Big Data.

Un premier fil conducteur mathématique mène des processus stochastiques, étudiés, entre autres, par Paul Lévy (1886-1971), à la méthode d'analyse des transducteurs de Wiener, puis, par le détour de Claude Shannon (1916-2001), un autre éminent visiteur de l'IAS en 1940, et de sa théorie de l'information, à la théorie actuelle de la « mécanique computationelle » — si l'on me permet un néologisme mot à mot traduit, meilleur que la mécanique du calcul — de James Crutchfield (#) à UC Davis et au Santa Fe Institute. Le monstre chaotique, qui a triomphé du déterminisme strict de Pierre-Simon Laplace (1749-1827), a donc enfanté une quantification viable des motifs et des correspondances (patterns) dans la structure des données. Ces outils quantitatifs nouveaux révèlent l'information et, partant, promettent l'accès aux connaissances, que codent les flux massifs de données d'aujourd'hui.

Un second fil conducteur est celui de la modernisation de la théorie des graphes, une affaire presque entièrement due à des mathématiciens hongrois de premier plan (#) — Paul Erdős (1913-1993), Endre Szemerédi, Dénes Kőnig (1884-1944), Gyulia Katona, Béla Bollobás, Zoltán Füredi, Alfréd Rényi (1921-1970) parmi d'autres. Au long de cette tresse on trouve l'émergence systématique d'un composant connexe géant dans le modèle de croissance des graphes aléatoires (#) — modèle dans lequel on connecte au hasard deux sommets parmi les n avec une probabilité donnée p, et dont le comportement à la limite des n très grands montre des changements abrupts en fonction de p totalement inattendus. Le second résultat est celui de la prédominance des power laws (lois de puissances) à toutes les échelles dans de nombreuses manifestations de l'évolution ou de l'adaptation de systèmes complexes : réseaux scale-free de Barabási-Albert (#) qui expliquent la croissance d'Internet, du Web, des réseaux sociaux, des interactions entre protéines, des réseaux de transport aérien, etc. ; réseaux small-world de Watts et Strogatz (#) dans les réseaux de neurones, de collaboration d'auteurs de papiers académiques ou d'acteurs dans des films, de relations sociales, etc. (#) ; la loi de Kleiber, du biologiste Max Kleiber (1893-1976) et les modèles (fractals) d'échelle allométriques (#) (#) en biologie, théorie des populations et écosystèmes ; les limites physiques des théories de l'information (#).

Cette universalité apparente que l'on lit aujourd'hui dans les Big Data n'est pas non plus sans poser des questions qui, traduites dans le vocabulaire du jour, tournent autour de la sécurité des données, notamment du fichage et du flicage des données privées, de l'identité numérique et du délitement de l'esprit scientifique de synthèse. Cette critique, voire cette contre-réaction, avait été étudiée par Gilbert Simondon (1924-1989) qui s'interrogeait (#) déjà sur Le Mode d'existence des objets techniques et sur le malaise de ses contemporains envers la technique, allant jusqu'à la technophobie ou la technofolie (L'individuation psychique et collective).

Conclusions

Le sillage apparent des vagues scélérates Big Data semble porter une tendance réductionniste (#). L'instrumentation matérielle, stockage et transmission, et logicielle, traitements distribués, des Big Data sont les premiers efforts visibles produits pour ramener le complexe au simple (#). Mais cet outillage, pour important et indispensable qu'il soit, n'est que cela, instrumental, dans l'élaboration d'un cadre théorique englobant la complexité des phénomènes dont les Big Data sont la manifestation. Pour accéder à une véritable connaissance scientifique sur la base des Big Data, il faudra certainement un canevas qui embrasse frontalement des notions constructivistes et l'élaboration progressive — parfois abrupte comme dans l'émergence de comportements globaux — des structures. Les résultats récents obtenus par les sciences de la complexité, plus peut-être que la statistique traditionnelle — cf. Cosma Shalizi (#) et les deux cultures de la modélisation statistique de Leo Breiman (1928-2005) (#) — pourraient fournir ce cadre conceptuel dont le défaut se fait jour.

mardi, juillet 10, 2012

La Seconde intercalaire

Alors que le 30 juin 2012 s'effaçait pour laisser naître le 1 juillet 2012, à l'heure paradoxale de 23 h. 59 m. 60 s. (UTC), les ingénieurs systèmes de Reddit, LinkedIn, FourSquare, Gawker ou encore de StumbleUpon furent confrontés aux premiers crashs majeurs de leurs sites Web. Le bel ordonnancement horloger de tous les traitements massivement distribués des datacenters pharaoniques déraillait brutalement, butant sur un dérisoire grain de sable : une modeste seconde. La seconde intercalaire.

Cet épisode secondaire de la vie du Net nous rappelle que la Nature est obstinée et que sa complexité est bien têtue à se manifester avec ironie, même dans les constructions les plus abstraites de l'esprit humain. La seconde intercalaire, de création récente (1972), vient corriger, en plus ou en moins, les différences occasionnelles constatées entre le Temps universel coordonné (UTC) — adopté comme base du temps civil international par la plupart des pays et fondé depuis 1972 sur le Temps atomique international (TAI) — et le Temps universel (TU) — basé sur la rotation de la Terre pour calculer la durée du jour, qui a remplacé, toujours en 1972, le fameux Temps moyen de Greenwich (GMT). La vitesse de rotation de la Terre est éminemment variable ; la planète est sujette à des accélérations et des ralentissements, soumise qu'elle est à sa physique interne et à la cosmologie. Les secondes intercalaires ainsi rajoutées ou supprimées apaisent alors les querelles de famille chroniques entre leurs cousines si pressées : la seconde atomique, née en 1967 lors de la 13e Conférence générale des poids et mesures comme étant la durée de 9 192 631 770 périodes de la radiation correspondant à la transition entre les deux niveaux hyperfins de l'état fondamental de l'atome de césium 133, et la seconde universelle, aussi vieille que l'humanité, dérivée de l'observation du mouvement des étoiles, de la Lune, de radio-sources extragalactiques et de satellites artificiels de la Terre — dans toutes ses mutations génétiques UT0, UT1, UT1R ou UT2.

La RATP fournit aimablement à ses usagers une introduction à la physique quantique et à la cosmologie à la portée de tous, qui illustre parfaitement ce phénomène. À la station de métro La Motte-Picquet Grenelle, par exemple, un même quai sépare la ligne 8 (Balard - Créteil Pointe du Lac) et la ligne 10 (Boulogne Pont de Saint-Cloud - Gare d'Austerlitz) ; deux panneaux d'affichage jointifs annoncent les temps d'attente des deux prochains trains sur chacune des deux lignes. Tout voyageur peut alors de visu constater quotidiennement que même lorsque des temps identiques sont affichés côte à côte, leur écoulement est différent suivant la ligne et que les rames ne débouchent jamais simultanément de leurs tunnels respectifs : le temps de la ligne 8 n'est pas celui de la ligne 10. On pourrait y voir un effet de la relativité restreinte, les durées perçues dans un référentiel en mouvement par rapport à un autre dépendent de sa vitesse, mais un autre phénomène exposé par la RATP pour l'édification des masses ferait plutôt pencher pour une explication quantique. Reproduisant l'expérience de Michelson-Morley et démontrant la nature à la fois ondulaire et corpusculaire de la matière, il arrive en effet que, d'après l'affichage, le délai d'attente du passage du deuxième train devienne inférieur à celui du passage du premier. Interférence et diffraction quantiques font ainsi ne sortir du tunnel qu'une seule et même rame dont on ne sait — principe d'incertitude de Navigo-Heinsenberg — s'il s'agit de la première, de la seconde ou d'une combinaison linéaire probabiliste des deux.

Pour ajouter à ces difficultés mécaniques, le Temps universel coordonné est sous la responsabilité de l'Union internationale des télécommunications (ITU), et la mesure de la rotation de la Terre sous celle de l'International Earth Rotation and Reference System Service (IERS), créé par l'Union astronomique internationale et l'Union géodésique et géophysique internationale en 1987. Le Temps atomique international, en revanche, est défini par le Bureau international des poids et mesures, au parc de Saint Cloud à Paris (ligne 9 plutôt) — établi en 1875 (Convention du Mètre), on en doit l'origine à la renaissance scientifique due aux mathématiciens-ingénieurs français des Lumières, notamment à Gaspard Monge, inventeur de la métrologie et promoteur du système décimal. Et cependant c'est du Bureau central de l'IERS, situé à l'Observatoire de Paris — bien antérieur quant à lui à la Révolution puisqu'instauré avec l'Académie royale des sciences par Louis XIV et Colbert en 1666 — que se décide l'introduction des secondes intercalaires et qu'elles sont annoncées par un bulletin d'information, le Bulletin C, publié tous les 6 mois.

Vingt-cinq petites secondes ont ainsi été rajoutées subrepticement au plus profond de certaines nuits du 30 juin ou de celles du 31 décembre depuis 1972. Les quatre dernières secondes intercalaires sont exactement contemporaines de Google : 1998, une longue période d'harmonie synchrone, puis 2005, 2008 et donc 2012. Dans un blog publié en septembre dernier, Christopher Pascoe, Gardien du temps à Google, expliquait que les effets de la seconde intercalaire d'à peine visibles en 2005 — sans parler de 1998 où le moteur de recherches n'était qu'un projet estudiantin à google.stanford.edu — étaient déjà sensibles lors de son injection suivante en 2008. Afin d'anticiper l'impact des secondes intercalaires à venir sur la synchronisation de leurs serveurs toujours plus nombreux, le groupe Site Reliability Engineering mit à profit ces quelques années pour altérer insensiblement son implémentation de NTP, Network Time Protocol, le protocole de télécommunications dédié à la diffusion du temps du Net.

NTP est consubstantiel à Internet. Les premières versions du protocole évoquent immédiatement la figure des pères fondateurs du Net, en particulier celle de Jon Postel (1943-1998) co-auteur de la plupart des standards et éditeur des fameuses RFC. Publiés en 1983, les Daytime Protocol et Time Protocol (RFC867 et RFC868) sur lesquels il travaille alors seront la fondation du travail d'une vie, celle de David L. Mills, professeur à l'Université du Delaware en retraite depuis 2008, consacrée à l'élaboration et l'évolution de NTP. Car synchroniser deux ordinateurs, a fortiori bien plus, sur le réseau se révèle à proprement parler titanesque — dans la cosmogonie orphique Chronos n'est-il pas le père de Chaos et d'Ether ? Qu'un simple Net et vingt-cinq siècles séparent de Chaosnet et d'Ethernet, grands précurseurs d'Internet. La mesure du temps circule du ou des serveurs NTP vers les clients par le réseau lui-même. Son temps de diffusion dépend de l'état du réseau et du trafic, autant de paramètres qui doivent être pris en compte par le client NTP au moment d'effectuer la synchronisation.

En effet, le protocole stipule que quatre mesures « statistiques » sont actualisées à chaque échange entre serveur NTP et client NTP. Le theta représente l'écart le plus probable entre le temps du serveur et celui de l'horloge système ; le delta représente le délai de communication entre le client et le serveur ; l'epsilon est la dispersion, l'erreur maximale dans la mesure, proportionnelle à tolérance maximale de la fréquence de l'horloge système ; enfin, le psi définit la gigue, la racine carrée moyenne des délais précédemment constatés dans les échanges. Le protocole NTP spécifie des algorithmes de réconciliation, dits Byzantins, pour traiter l'ensemble des valeurs des theta, delta, epsilon et psi récupérées de plusieurs serveurs NTP par un client NTP donné suivant une fréquence calculée en fonction de sa propre horloge système. Le temps du Net est donc une abstraction d'une abstraction, le temps universel UTC. Il apparait codé sur 128 bits comprenant un numéro d'ère, un temps écoulé depuis le début de cette ère en secondes (sur 64 bits comptant jusqu'à 564 milliards d'années) et fractions de secondes (sur 64 bits comptant jusqu'à l'attoseconde, i.e 18 chiffres après la virgule). Ainsi quelques dates essentielles pour le temps du Net :

1 janvier 1970, le premier jour UNIX : Ère NTP 0, Temps NTP 2 208 988 800 ;
1 janvier 1972, le premier jour UTC : Ère NTP 0, Temps NTP 2 272 060 800 ;

mais aussi :

4 octobre 1582, dernier jour du calendrier Julien : Ère NTP -3, Temps NTP 2 873 647 488 ;
et prochain changement d'ère NTP, le 8 février 2036 marque le passage de l'ère 0, entamée le 1 janvier 1900, à l'ère 1.

Le paquet NTP est un datagramme UDP dont l'en-tête contient les dates d'émission et de réception et différentes informations dont le champ LI (Leap Indicator), soit 2 bits qui annoncent qu'une seconde intercalaire est à prévoir pour le dernier jour du mois en cours. Le champ rfid sur 32 bits identifie la source de l'information de temps véhiculée par le paquet. Dans la v4 du protocole actuellement en vigueur, ces sources sont des satellites en orbite géostationnaire, le NIST, l'Observatoire naval américain (USNO), le système GPS, le système Galileo et différentes radio-horloges réparties dans le monde — dont une à Fukushima (LF Radio JJY Fukushima, JP 40 kHz, Saga, JP 60 kHz ) et une autre à Allouis dans le Cher.

Les en-têtes et le contenu temporel des paquets permettent d'actualiser les statistiques utilisées par le client NTP pour la sélection des temps à retenir parmi ceux envoyés par les serveurs contactés, puis pour la combinaison des temps choisis en une indication chronologique finale employée pour synchroniser l'horloge locale. L'algorithme de Marzullo employé dans NTP renvoie directement aux algorithmes de gestion de cache mémoire et de gestion de « vote », ou de sélection d'un candidat lorsque plusieurs valeurs sont en compétition. Cette classe d'algorithmes est à nouveau un sujet d'étude frénétique depuis le succès des datacenters dans lesquels le calcul lui-même est distribué à un nombre (grand) arbitraire de serveurs suivant leur disponibilité instantanée. Ils sont en effet indispensables pour ré-assembler les résultats de ces calculs, éliminer les erreurs éventuelles et assurer cohérence et intégrité des données.

Chez Google, par exemple, ce même type d'algorithme est utilisé abondamment pour un service de verrouillage des données dans le cadre de traitements transactionnels, sous le nom de Chubby. Les services critiques de Google, comme GFS (le Google File System) et BigTable mettent tous en oeuvre l'algorithme Chubby — les papiers de référence sur ces mécanismes de consensus réparti dans un contexte de communications asynchrones restent ceux de Leslie Lamport sur la famille de protocoles Paxos et de Brian Oki et Barbara Liskov du MIT à l'époque. On comprend mieux l'impact d'une perturbation de l'exécution des algorithmes centraux à NTP sur les algorithmes similaires qui leurs sont reliés tant su côté serveur que du côté client. La solution originale de Google fut de « tricher » et de faire tourner une version maison de NTP dans laquelle l'indicateur LI n'est volontairement jamais déclenché, mais le temps distribué est légèrement altéré d'une milliseconde dans les mille échanges précédant l'injection de la seconde surnuméraire. (Le cas de la suppression de la seconde intercalaire ne s'est pas produit depuis 1998.) Ainsi la modification subreptice est étalée dans le temps et présente, de ce fait, moins de risques de blocage des traitements qui en dépendent, notamment ceux de gestion de cache et de bases de données chez le géant de Mountain View. Google freine l'allongement du temps du Net !

L'option inverse est très sérieusement en débat à l'Union internationale astronomique et à l'ITU où la discussion porte sur l'abolition pure et simple de ces secondes intercalaires devenues problématiques, tant notre vie économique est devenue dépendante du réseau, et leur remplacement éventuel par des « heures intercalaires » à intervalles moins fréquents. Ce ne serait pas une première : en 1582, le dernier jour du calendrier Julien, le 4 octobre, fut immédiatement suivi du premier jour du calendrier Grégorien, le 15 octobre — soit une bonne dizaine de jours intercalaires, provoquant l'émoi qu'on imagine dans la population affolée !

Et pendant ce temps-là, intercalaire ou non, la Fondation Long Now fait forer une immense caverne dans une montagne à l'ouest du Texas pour y bâtir et y installer la 10000 Year Clock, une horloge qui fonctionnera en totale autonomie, sans intervention humaine, vestale moderne d'une exactitude rigoureuse à la seconde près pendant les dix prochains millénaires...

dimanche, mai 27, 2012

France Numérique, le changement c'est maintenant ?

L'indigence de la prospective sur l'économie numérique et son vecteur principal, l'innovation portée par des jeunes entreprises, de ce côté-ci de l'Atlantique attriste. Oh ! Bien sûr, tous s'accordent pour la qualifier de « secteur clé de la relance économique », quelle que soit son allégeance politique. Pendant la campagne électorale de 2007, déjà, un Loïc Le Meur triomphant (#) offrait, à l'occasion de sa conférence annuelle Le Web 3, une estrade au candidat UMP venu assurer une audience de geeks de sa grande considération pour ce secteur économique — l'un et l'autre s'aliénant au passage une partie de la blogosphère qui n'a pas apprécié la confusion politico-médiatique des genres. Ces vues élevées ont ensuite passé par les mains de Nathalie Kosciusko-Morizet, en mal de point de chute après le psychodrame des « recadrages » de 2008, et d'Eric Besson, d'abord promoteur télégénique du grandiose (#) « France Numérique 2012 » — ça y est, on y est ! N'est-ce pas formidable, la vie numérique en France ? — puis bien plus intéressé par l'indispensable préparation de sa reconversion dans le football (#). Entre-temps nous eûmes d'un côté l'attirail financier complet de la complaisance et de l'autosatisfaction étatique : e-G8 fomenté par Publicis en 2011 (#), Investissements d'avenir et son gosplan concocté au Commissariat général (#), Fonds stratégique d'investissement (#), Fonds national pour la société numérique (# FSN), Fonds national d'amorçage (# FNA), le CNN, la consolidation des fragments autrefois épars d'Oseo pour fortifier le bref plan de relance PME (2008-2010) et le rescrit du crédit d'impôt recherche ; et, de l'autre, la panoplie totale taser de la Nouvelle surveillance : Hadopi (#), LOPPSI (#), Taxe anti-Google (#), Base élèves premier degré (#), EDVIGE (#) et bien d'autres, trop nombreux pour être cités.

Si le gouvernement précédent ne fut guère avare de satisfecit auto-décernés devant la grille de lecture bipolaire — comme les troubles — du numérique, encouragement sans discernement sous le régime du paternalisme forcément bienveillant de la Caisse des dépôts et consignations — dont on cherche désespérément ces jours-ci un successeur à sa tête — contre fréquents épisodes répressifs, dans la lignée de Huxley ou d'Orwell, celui qui s'annonce est resté, à ce jour, bien prudent sur sa propre appréhension — dans tous les sens du terme — du numérique. C'est à Fleur Pellerin, ministre déléguée des PME, de l'innovation et de l'économie numérique, sous la tutelle de la cuistrerie néologique du « Redressement productif » d'Arnaud Montebourg — faîtes nous grâce des débordements strauss-kahniens que ce gimmick jargonnant pourrait inspirer ! — qu'échoit donc le recours à l'ingéniosité d'expression pour masquer le dénuement intellectuel de la réflexion politique sur le numérique.

Considérons que le contexte est pour le moins chahuté. Ces derniers jours, les « ratés » de l'IPO de Facebook aux États-Unis redonnent ironiquement crédit aux critiques du numérique comme économie (#). Les voilà qui convoquent aujourd'hui, en exemples de la vertu productive, Apple et Amazon, ceux-là même que naguère ils dénonçaient comme pratiquement failli (#) et critiquaient avec acrimonie comme dilettante de l'éphémère Nouvelle économie, volatilisée dans l'éclatement de la Bulle Internet (#). Ailleurs, des observateurs comme Evgeny Morozov (The Net Delusion #) appellent à ne pas s'aveugler des « révolutions Twitter » (Moldavie 2009, Iran 2009-2010, printemps arabe 2011) en oubliant que le numérique est aussi instrument de coercition (#). Jonathan Zittrain (#) quant à lui, démontre combien l'évolution actuelle du Net, qu'il caractérise par l'aide involontaire de ses utilisateurs apportée à un retour doucereux du propriétaire et de l'enfermement dans des sous-réseaux de commerce — pensez opérateurs de téléphonie mobile, réseaux sociaux et moteurs de recherche piloté par la publicité, etc. — ou de surveillance — pensez états et gouvernements, caméras publiques, identités numériques, etc. — peut laisser craindre pour la démocratie et la neutralité du Net.

À l'inverse, Lawrence Lessig, de passage à Paris le mois dernier, se réjouissait à Sciences Po. du succès des cyberactivistes américains dans le blocage du projet de loi SOPA (Stop Online Piracy Act #) et appelait (#) à ne pas baisser la garde, certain que les représailles de la MPAA ne tarderaient pas à se matérialiser. Sous nos cieux, le recrutement des maintenant fameux 2,6 millions de clients en deux mois ont propulsé Free Mobile (#) comme champion des bienfaits du numérique aux (portefeuilles des) consommateurs. Rancis dans le statu quo, les opérateurs « historiques » — dont Bouygues qui eut pourtant à subir en son temps le même concert nourri de cris d'orfraie — invoquent l'emploi et la défense des salariés contre celle des consommateurs. Pourtant le rapport McKinsey (#), Impact d'Internet sur l'économie française, montrait, dans une ambiance économique déjà morose, qu'en 2010 la « filière Internet » représentait 3,2 % du PIB et 1,15 millions d'emplois. Or c'est bien là le coeur : l'homo numericus est salarié et usager, il est producteur et consommateur, il est copieur et inventeur, il est acheteur et vendeur. Comment éclairer cette contradiction fondatrice de l'économie numérique ?

D'abord en ne perdant pas espoir au motif d'une confusion générale !

Prenons en compte avant tout que l'industrie du numérique est une industrie pas comme les autres. Parce qu'elle traite d'information, l'industrie numérique intermédie progressivement, à des vitesses différentes selon les secteurs mais toujours accélérant, tous les autres secteurs industriels au point d'en redessiner les contours, d'en redéfinir les processus. De plus, malgré les chiffres évoqués précédemment, l'industrie du numérique peut certes générer de hauts revenus, mais elle ne parvient pas à employer beaucoup de gens. Pour vous en convaincre, il suffit de retourner l'iPad que vous vous êtes précipité d'acheter le jour même de sa sortie (et sur lequel vous lisez cette tribune, puisque vous avez réussi à l'arracher des mains du djeune familial local sous addiction DragonVale ou Angry Birds) pour y lire : « Designed by Apple in California. Assembled in China. ». Concise apologie de la mondialisation ! Ouvrez le compartiment de la batterie de la clé USB 3G au joli petit logo en carré de couleur orange et lisez : « Huawei ». Où sont les innovations de conception, où sont les innovations de fabrication ; où sont les hauts revenus, où sont les emplois ? C'est là un constat qui rend les responsables politiques toujours méfiants vis-à-vis de l'industrie du numérique, qui ne parvient pas à tirer la reprise du marché de l'emploi, au moins parce que son essor n'est pas à la hauteur de la crise que connaissent les industries traditionnelles. (Sans parler de la question du contrôle qui devient un sujet occulté mais majeur ; témoins les partis Pirates en Europe, par exemple.)

C'est aussi la raison fondamentale pour laquelle distribuer largement des fonds publics à des projets, décrétés innovants sur appel d'offres, comme si l'Etat se substituait à une défaillance de marché dans le financement des très jeunes pousses et des PME de l'industrie numérique n'aboutira pas à d'autre constat que celui de l'inadéquation de la thèse même de la planification de l'innovation et du développement de l'industrie numérique. Là où une réelle défaillance de marché (#) pourrait éventuellement appeler une intervention de l'Etat (#), que lit-on plutôt dans les chiffres récemment publiés (#) par l'Association française des investisseurs en capital (AFIC) par exemple — du moins après les nouvelles pressantes du tournoi interne de futsal du 24 mai dernier ? En quelques années depuis 2007, les investisseurs traditionnels privés en capital risque et capital développement ont déserté — institutionnels, family offices, industriels — ne laissant encore actifs pratiquement que les fonds d'origine épargne publique (FCPI, FIP, Fonds TEPA, holdings ISF) opérant sous de lourdes et coûteuses contraintes réglementaires au motif qu'ils collectent sur le thème de la défiscalisation — et non prioritairement sur celui du retour sur investissement. Et encore est-il question de revoir cet unique dispositif survivant aux coups de « rabot fiscal » imposés par la dureté des temps ! Les rendements négatifs — statistiques à l'appui — de ces véhicules d'investissement à risque sur les dix dernières années et le concert unanime et bien-pensant de critiques moralisatrices qui accablent la réussite (miraculeuse !) de ces entrepreneurs du numérique — sans parler de leur punition fiscale qui semble promise à s'alourdir singulièrement en France dans les années qui viennent — n'inciteraient en effet ni à investir, ni à entreprendre dans ce modèle perclus de rigidités et d'inefficacités. Et c'est d'ailleurs bien ce qui se passe !

Ce décrochage industrie numérique, et ses effets sur d'autres secteurs, versus emplois est maintenant bien connu et théorisé par des économistes comme Jeremy Rifkin, Brian Arthur et Erik Brynjolfsson. Des prix Nobel comme Solow et Krugman ont largement contribué à l'identification de ces évolutions. Quelles idées et quels nouveaux modèles pourrait-on imaginer de substituer aux précédents pour répondre à ces mutations ? Brynjolfsson (#) suggère que l'on injecte une dose d'« intérêt social » et notamment que l'on consacre également ces technologies numériques à l'amélioration du système éducatif.

Notons sur ce plan l'intérêt croissant pour des structure hybrides comme Y Combinator aux Etats-Unis (#), empruntant leur modèle (#) partie à l'incubateur, partie à l'investisseur en private equity, partie au coach d'équipe, partie au conseil stratégique pour accompagner le démarrage des entreprises de l'industrie numérique. Ses succès tangibles récents (#) comme Reddit, Heroku, Airbnb, Dropbox, OMGPOP ont attiré la presse (et provoqué la concupiscence des investisseurs en venture capital établis). En France, fondé sur l'idée d'un mentoring discipliné, le Founder Institute (#) est une véritable Grande école de startup qui distille connaissances, savoir-faire et expériences d'entrepreneurs aguerris, en véritables mentors se mettant à la disposition de leurs jeunes successeurs porteurs de projets innovants. Le Founder Institute dépasse la simple mise en relation de business angels et de projets d'entrepreneurs ; il est le garant que s'établit une véritable transmission d'expérience et de bonnes pratiques en valorisant un véritable écosystème de mentoring, souvent très international, au service de l'entrepreneuriat numérique.

C'est peut-être du côté de ces alternatives modernes que la nouvelle ministre de l'innovation et de l'économie numérique et les « Nouveaux développements » de la rue de l'Université à CDC Entreprises trouveraient quelques sources d'inspiration...

vendredi, mai 18, 2012

Facebook ou la défaillance de marché ?

Au jour de la monumentale IPO de Facebook qui a d'avance épuisé tous les superlatifs des commentateurs, il est peut-être intéressant de se pencher à nouveau sur la question des données, les data qui de soigneusement domestiquées dans leurs bases, voire leurs fermes, principalement sous la férule agraire des départements informatique des grandes entreprises acquièrent aujourd'hui sous les épithètes de Big, d'Open et de private de nouvelles qualités, une seconde nature.

Comme le note le New York Times (#) ces jours-ci, la destinée de Facebook est de trouver quoi faire de l'inimaginable agglomérat de données, photos, vidéos, états d'âmes passés et présents, déclarations, réclames, repentirs, transactions, profilages et filatures, réseaux et sous-réseaux d'influence, coteries, cabales et grandes causes qui agitent cette moderne Capharnaüm. À l'heure fatidique où le Big Data va achever de redéfinir la notion de réalité (#) pour les sciences socio-économiques et se prévaloir de la vérité scientifique — bientôt unique parce que statistiquement représentative — Facebook, à plus de cent milliards de dollars, quantifie exactement la valeur de la denrée mentale (#) de la partie maintenant significative de l'humanité qui s'y donne en spectacle.

En forme de contrepoids les récentes initiatives dites Open Government Data (#), en France la Plateforme d'ouverture des données publiques (data.gouv.fr) inspirées des initiatives antérieures de l'administration Obama (Empowering People) et du gouvernement britannique (Opening up government), postulent un potentiel de progrès social des modèles « ouverts » de production et de distribution de données. Les arguties de campagne électorale entre Séverin Naudet (#), directeur de la mission Etalab, et Fleur Pellerin (#), maintenant ministre délégué des PME, de l'Innovation et de l'Economie numérique, masquent à peine leur accord sur le fond. En effet, les exigences usuelles des avocats des initiatives Open Government Data portent sur la publication en ligne :

de jeux de données publiques bruts sans traitement ;
dans un format technique ouvert et non-propriétaire ;
sous une licence permettant l'utilisation, la réutilisation et la redistribution sans discrimination ;
et à un coût marginal, ce qui, en pratique, signifie à coût nul ou quasiment nul pour les ressources numériques.

Tout à l'opposé de Facebook ! En revanche, parfaitement dans l'esprit de l'Open Knowledge Foundation (#), OKFN, dont les définitions puisent leur inspiration dans dans les travaux antérieurs de l'Open Source Initiative (#).

Vraiment ?

L'insistance des gouvernements à placer ces initiatives Open Government Data sous la bannière de la « transparence » — « Innovation. Transparence. Ouverture. » lit-on sobrement sur la page d'accueil du portail français ; sur le site anglais, David Cameron lui-même s'enorgueillit, en vidéo numérique, de son Government's Transparency Agenda ; la transparence qui est aussi, avec la collaboration et la participation, l'un des « Open Government core principles » affiche le site américain — ne masquerait-elle pas un contexte politique particulier, nonobstant les protestations de neutralité sans nul doute sincères des promoteurs des initiatives Open Government Data ?

Car c'est en effet oublier que ces initiatives émergent dans un contexte politico-historique particulier et sur un terreau déjà travaillé, souvent de longue date, par des acteurs de la société civile aux origines et aux intérêts variés. Vues sous cet angle, on pourrait aller jusqu'à argumenter que les initiatives Open Government Data gouvernementales visent à ré-équilibrer un marché, jusque là occulte, dont Facebook et son IPO ploutocratique constitue le plus bel exemple de défaillance de marché.

Les réseaux de la société civile engagés dans les initiatives Open Data sont nombreux, complexes et entretiennent des interactions diverses avec l'Etat, les institutions et le secteur privé (#). Ce qui frappe donc, dès l'abord, c'est l'hétérogénéité : activistes de l'OKFN, avocats du droit à l'information et à la transparence — l'hiver dernier Etalab avait été lancé sous les auspices d'un rms assoupi et d'un Nigel Shadbolt (#) militant —, entreprises et organisations du secteur économique de l'information du secteur public, communautés du Web sémantique (#) et du Linked Data (#) ou Web des données, etc. Toutes ces organisations sont financées via une variété d'instruments, prestations de services et de conseil pour les uns, fonds publics d'encouragement et de développement de l'innovation, servant l'intérêt social et l'enjeu économique, pour d'autres, voire même par des fondations philanthropiques (e.g. la Shuttleworth Foundation).

Bien souvent les jeux de données publiques qui intéressent les mouvements Open Government Data sont depuis longtemps soumis à l'examen attentif de leurs conditions de production et de leurs droits de propriété exercés par le secteur public. Ces données sont souvent quantitatives ou nominatives (géospatiales, environnementales, statistiques, de dépenses publiques, de transport, ou culturelles) et existent parfois déjà dans des jeux publics mais à des coûts jugés prohibitifs, ou pas encore numérisés, à une époque où les évolutions technologiques rapides vont dans le sens, inverse, d'une disparition de ces barrières artificielles à l'entrée. Le cas échéant, ces jeux de données publiques, qui alimenteraient déjà jusqu'à 15 à 25 % des produits et services d'information en UK d'après The National Archive (#), peuvent être payants et licence particulière de réutilisation doit être spécifiquement obtenue des administrations concernées, parfois à un coût supérieur au coût marginal de production. En insistant sur l'abaissement ou la disparition de ces coûts et sur la promulgation de licences ouvertes et standards de réutilisation, les initiatives Open Government Data marquent leur coloration socio-économique, bien au-delà d'un seul mouvement technique ou de numérisation généralisée.

Si la commercialisation croissante des flux d'information est une marque de fabrique aisément reconnaissable de l'économie capitaliste de ces trente et quarante dernières années, tous secteurs, privé et public, confondus, les historiques et les pratiques nationales varient considérablement. La restructuration néolibérale du secteur public britannique, entamée dans les années 1980, a entraîné la privatisation de certaines activités de service public, accélérant ainsi la recherche de sources alternatives de revenus de la part des administrations et l'élévation de barrières contre de nouveaux entrants privés sur ce marché de l'information « publique ». Là, ces administrations se sentent parfois menacées par les initiatives Open Data et le soutien gouvernemental qu'elles reçoivent. Aux USA, des voix, et non des moindres, comme celle de Lawrence Lessig (#) — qui était récemment de passage à Paris pour y distiller son message dans le grand amphi de Sciences Po., encore en deuil de son président — se sont élevées contre la menace de la tyrannie de la transparence. Le programme data.gov n'a été sauvé que de justesse dans les budgets 2012 et 2013, à l'issue d'âpres discussions (#) au Congrès. En France, l'approche centralisatrice — au choix colbertiste, jacobine ou napoléonienne — reste prévalente : un Institut national, l'INSEE, est le dépositaire et le garant des grands jeux de données publiques socio-économiques de valeur, mais imagine-t-on que la Hadopi publie ses fichiers sous licence LGPL (bien que sous-traités à la société on ne peut plus privée Trident Media Guard), que France Telecom publie l'intégralité des logs des communications de ses abonnés mobiles, ou que la gendarmerie et la police nationale mettent en ligne, en XML avec les DTD, les 58 fichiers nationaux dénombrés par le rapport Batho-Bénisti de 2009 (#) ?

Certains observateurs ont tendance à conceptualiser les initiatives Open Government Data comme visant en premier lieu les jeunes pousses et startups, les « activistes citoyens » et les TPE/PME. En France des exemples brillants comme Regards Citoyens (#) et Data Publica (#) illustrent ce principe vertueux dans la doxa actuelle de l'innovation. En revanche, n'oublions pas qu'elles profitent également aux très grands acteurs et à certaines multinationales établies comme Microsoft (#), Google (#), LexisNexis, DMGT, Lloyds, les entreprises membres de la PSI Alliance (#), etc.

Alors la valorisation de Facebook, à laquelle on propose au grand public d'acheter des titres, reflète à l'évidence le poids social (#) récemment supposé (printemps arabe, « révolution » iranienne) mais surtout économique de l'agrégation des données (privées) que ce même grand public accepte sans barguigner de livrer au réseau social en échange d'un narcissisme virtuel et d'un service public d'amusement universel (#). Peut-on vraiment qualifier cette allocation inédite entre individu, citoyen, secteur public et secteur privé d'optimale ?

dimanche, avril 01, 2012

L'Architecture générale su souverain cloud

À la lecture du communiqué de presse de France Telecom daté de ce matin, on comprend mieux pourquoi Dassault Systèmes se désengageait si subitement d'Orange (#) dans le projet de cloud computing français, Andromède. La conférence de presse donnée aujourd'hui par Stéphane Richard et Gervais Pellissier, accompagnés de l'ingénieur de recherche hors classe des Télécommunications Thérèse Ponsable du Matos, lève en effet le voile sur l'architecture technique finalement retenue pour Andromède. Après le salut au drapeau, Mme Ponsable a déclaré liminairement que c'est avec « fierté que nous annonçons une avancée technologique à la hauteur des enjeux d'Andromède : de ne pas laisser à des acteurs non européens l'accès aux données stratégiques des entreprises françaises et européennes et de leur transférer la responsabilité de la sécurité et de la fiabilité de nos systèmes ».

D'après France Telecom, les choix techniques réalisés « permettront à Andromède de concevoir, bâtir et opérer une infrastructure de "centrale numérique" de confiance et sécurisée, au service de la compétitivité de l'économie et de la société française, à vocation européenne ». À ces fins, l'infrastructure proposée aujourd'hui, sur laquelle les 135 millions d'euros issus du Grand Emprunt sont engagés par la Caisse des dépôts et consignations, prend le contre-pied complet des standards et des protocoles d'Internet, perçus comme n'offrant pas le niveau de confiance et de sécurité — voir les derniers déboires de RSA et https dans l'étude d'Arjen Lenstra (#) publiée en février dernier — jugés indispensables au maintien de la souveraineté nationale. Le communiqué de presse original est ensuite particulièrement technique. Nous allons essayer de rendre compte brièvement des deux grands composants du cloud Andromède annoncé.

Architecture technique de l'infrastructure. Cette toute nouvelle infrastructure, TRANSPAF (Transmission par paquets français) est donc un réseau public de données à commutation par paquets utilisant la technique du circuit virtuel :

Si un terminal souhaite émettre un appel ou transférer des données, il transmet une séquence, le tirynthe (tirage random-y du numéro théorique) ;

Cette séquence, d'un format bien déterminé, le trimètre iambique, est appelée demande d'appel ; elle provoque la constitution, de proche en proche dans le nuage jusqu'au terminal appelé, d'un chemin logique.

L'établissement de ce circuit virtuel correspond au marquage de l'itinéraire, également appelé O10C en référence au jeu de caractères de l'alphabet international n° 5. Il réserve les mémoires tampons dans chaque commutateur traversé.

Si le terminal appelé accepte la communication (et bien sûr qu'il est situé de plein droit en territoire de la République française), il transmet en retour un paquet de confirmation d'appel qui effectue la même opération dans l'autre sens de transmission.

Ensuite les données peuvent être échangées sous forme de paquets entrelacés (les pacs), assemblés et triés à l'arrivée.

Les fonctions assurées par le commutateur TRANSPAF, familièrement appelés le pouzin — avec une certaine irrévérence doit-on ajouter —, se répartissent en deux catégories :

les fonctions de commande, relativement complexes, mais peu fréquentes ;

les fonctions de commutation, plus simples mais répétitives.

Les premières font appel à un calculateur d'usage général d'occasion, le Mitra Stictica 15 (#), les secondes à un matériel spécialisé, la CP50 (Cetus-Persée 50), comprenant des processeurs rapides avec un temps de cycle de 250 nanosecondes. Unités de commandes et processeurs sont redondants et mis en relation par un bus temporel double, sur lequel la vitesse de transmission est de quelques bauds, lorsqu'on ne déplore pas d'incident de voyageur grave ni qu'on ne prie d'excuser la gêne occasionnée. Notons que France Telecom annonce également, à cette occasion, le rachat total de la Manufacture belge de lampes électriques à Vishay (#) par échange de titres.

Dans sa configuration maximale, un pouzin TRANSPAF comprend deux Mitra Stictica 15 et seize modules de commutation permettant chacun le raccordement de 496 lignes (30 adaptateurs de 8 lignes synchrones et deux unités de 128 lignes asynchrones). Le cloud est organisé en deux niveaux : le commutateurs nodaux (CMN) qui constituent un réseau maillé, joliment nommé l'électryon, et les commutateurs locaux (CML) auxquels sont raccordés les abonnés à Andromède. Pour la gestion du cloud on trouve également deux niveaux : un point de contrôle local (PCL) — chargement des programmes et des tables de routage, enregistrement des données d'alarme — établissement sous la responsabilité d'un fusilier marin aposté, et deux centres de gestion (CG) au niveau national — centralisation des statistiques et des données de taxation, mise à jour des tables d'acheminement, reprise des fonctions des PCL la nuit et en cas de défaillance — l'un dans le bunker souterrain de l'Hadopi (#), rue du Teletexel, l'autre dans la champignonnière de l'ANSSI.

Protocoles, codages et standards des services. Mais là n'est pas tant la véritable innovation qu'apporte la solution Andromède mais que plutôt dans l'audacieux pari technique du terminal français du cloud national, le Gorgophone (#). Mme Ponsable rappelle en effet que dans le cadre du « programme d'actions pour diffuser les usages du web 2.0 dans les entreprises », l'Etat veut favoriser en France le développement de nouveaux usages autour des technologies numériques en général, et du cloud computing en particulier. Il sera lancé dès le second trimestre 2012 une vaste campagne d'équipement de toutes les entreprises françaises au REE de l'INSEE (#) d'un Gorgophone à usage souverain, garant du patriotisme économique (#), sésame pour l'obtention du Label « Origine française garantie » (#) pour les produits et services numériques.

Le Gorgophone est un terminal téléinformatique compact et autonome, hautement sécurisé, qui permet la visualisation sur un écran et l'émission de données à partir d'un clavier. Il offre deux standards, le standard Téléinformatique (#) historique et le standard TELECLOUNE (Télétransmission au Cloud National), inédit et pensé d'emblée pour le cloud Andromède.

Le standard TELECLOUNE possède deux modes de fonctionnement qui diffèrent par l'interprétation des codes et séquences reçues pour l'affichage. Le mode cloudotex permet l'exploitation du Gorgophone dans un format de 25 rangées de 40 colonnes avec un décodage conforme au Profil 2 de la norme CEPT (#) ; le mode mixte permet l'exploitation du terminal dans un format de 25 rangées de 80 colonnes avec décodage respectant la norme ISO 6429 (#). (Seule concession, bénigne somme toute, à l'honni impérialisme américain, ce second mode ainsi que le standard Téléinformatique du Gorgophone permettent d'exploiter des serveurs ASCII historiques.) L'architecture du Gorgophone se compose de quatre sous-modules regroupant éléments physiques et logiciels :

le module écran,

le module clavier,

le module modem, qui assure la transmission entre le terminal et les services cloud,

le module prise péri-informatique qui assure la transmission des données entre le Gorgophone et les périphériques (imprimantes, lecteurs de cartes de crédit, bracelets électroniques, shocker-tasers, roue de Wimshurst, calculateurs Curta Type I et Addiator Faber Castell, JR01 de Chamecki, etc.)

Dans le standard TELECLOUNE l'ensemble de ces modules est géré par le logiciel protocolaire centralisé, Mestor, qui est à l'ATTILA ¹ ce que le Mescla ² est au PARNASSE ³. Le Mestor est écrit dans le langage de programmation Unlambda (#) spécialement mis au point à l'ENS pour le Gorgophone, le langage PAPE ayant été abandonné depuis le Concordat.

En se connectant directement au PAD-X3 (assembleur/désassembleur de paquets à la norme X3 #) le Gorgophone, asynchrone, peut ainsi être rattaché au cloud TRANSPAF. Le contrôle du bon fonctionnement du terminal est simplifié : vérifier que la lettre F (France !) s'affiche sur l'écran, sur fond bleu-blanc-rouge, après la mise sous tension du Gorgophone, et test de la connexion par appui sur la touche « Connexion/Fin » sur réception de la porteuse d'Andromède — les douze premières mesures de « La Marseillaise » en fréquences vocales (#) — provoquant alors le remplacement de la lettre F par la lettre C (Camembert !).

Une page-écran, conforme aux caractéristiques de visualisation retenues par TELECLOUNE, est transmise sous une forme codée qui est volontairement incompatible avec HTML5, d'un cosmopolitisme inacceptable au regard de la souveraineté du cloud. Le vocabulaire, empruntant à la langue française sa limpidité et sa concision, est constitué de 128 codes conformes à la version de référence de l'alphabet international n°5 (#), chacun représenté par un mot de 7 bits et un bit de parité. Les lettres accentuées sont désignées par une combinaison de trois codes, les lettres spéciales (avec ligatures) et les symboles semi-graphiques sont codés par des séquences spéciales. Tous les entiers sont évidemment représentés par des entiers de Church (#) en Unlambda — ainsi le code « Sep », 03, est logiquement ``s``s`ksk``s``s`kski dans Mestor, par exemple.

Au plan logiciel, la translitération de TELECLOUNE vers TRANSPAF est un proof-carrying code (#) de Marti-Maury, exécuté sur le PAD-X3. Le PAD-X3 comprend un HSM (Hardware Security Module) fourni par Thales (#) pour l'exécution de cet algorithme sensible. Le programme de translitération a été entièrement réécrit en Maldecrane, un langage de programmation, dérivé tout spécialement de Brainfuck (#), qui comporte huit commandes seulement, chacune représentée par un caractère (1,l,|,i,!,',I et :) — avec lequel le programme classique « Hello World » s'écrit sous la forme particulièrement naturelle : llllllllll1:lllllll:llllllllll:lll:liiii!|:ll':l'lllllll''lll':ll'iilllllllllllllll':'lll'!!!!!!'!!!!!!!!':l':', par exemple. Le Gorgophone et l'accès du Gorgophone au cloud Andromède sont ainsi totalement sécurisés, les certificats de l'infrastructure à clés publiques étant distribués et gérés au niveau national des CG évoqués plus haut.

Un avenir radieux. À la fin de la conférence de presse, mon voisin, tabulateur surnuméraire au Ministère de l'Enregistrement, utilisateur ayant son ETEBAC (#) depuis des décennies me faisait remarquer d'un ton goguenard : qui, en effet, peut encore croire à la fin programmée de Transpac et du Minitel, d'abord annoncée par France Telecom pour septembre dernier et sans cesse discrètement repoussée, (aujourd'hui à juin 2012 #) ; qui donc sait quel avenir radieux le cloud nous réserve ?

Notes :

¹ Analyseur de Trafic Téléphonique Intégré pour Ligne d'Abonné

² Mesure et ESsais Centralisés sur Ligne d'Abonné

³ Programme d'Admissibilité d'un Réseau Numérique et Analogique Soumis à une SEcurisation

dimanche, mars 18, 2012

De la causalité dans le Prix Turing

Le prix Turing vient d'être décerné, pour l'année 2011, au professeur Judea Pearl, l'un des plus brillants représentants de ces chercheurs qui, défrichant hardiment les frontières traditionnellement établies entre disciplines scientifiques, mathématicien, philosophe et informaticien, firent les grandes heures des disciplines fondatrices de l'Intelligence artificielle. Il est d'usage de rappeler qu'il avait été tristement tiré de la discrétion rigoureuse et savante de ses travaux fondamentaux du Cognitive Systems Laboratory à UCLA par le tragique assassinat de son fils, Daniel Pearl, journaliste au Wall Street Journal, par des terroristes en 2002. Sa stature publique, comme président de la Fondation Daniel Pearl, est devenue une inspiration et un modèle d'humanisme pour la compréhension mutuelle entre cultures.

Au plan scientifique, Judea Pearl s'est attaqué à des questions d'ampleur monumentale : raisonnement, heuristique, inférence, causalité, qu'il examine à la fois en philosophe, en logicien parfaitement au fait des travaux de re-fondation des mathématiques du XXe siècle — de Whitehead et Russell à Rosser, Curry et Church, de Quine et Kleene à Suppes, de Tarski et Łukasiewicz à Kolmogorov et Markov tant ses travaux touchent aux fondements théoriques de la représentation de la pensée — et en programmeur et architecte informatique, concepteur d'algorithmes dont, au fil du temps, l'importance est devenue cruciale aux yeux de tous les géants du Web, collecteurs et analystes du Big Data. Le fil conducteur de ses travaux de recherche a élevé le raisonnement probabiliste au rang d'outil, à la fois fondamental et pratique, de modélisation de la relation de cause à effet. Quoi de plus naturel, en effet, pour un jeune chercheur du tout début des années 1980 que d'explorer la possibilité de dégager les relations causales de la moraine de faits charriés par les données brutes — une question proprement philosophique jusqu'alors et que l'on peut faire remonter au moins jusqu'à David Hume et son Treaty on Human Nature — avec les moyens neufs et les méthodes appliquées de la programmation alors naissante ?

Pearl est généralement reconnu comme inventeur du terme « réseau Bayesien » pour désigner ces constructions mathématiques qui jettent des passerelles entre théorie des graphes et relations de dépendance probabilistes. En particulier, il a conduit de succès en succès l'approche consistant à chercher dans le puzzle des données des motifs partiels d'indépendance conditionnelle, révélateurs d'une structure causale sous-jacente, et à en assembler les pièces en un modèle causal cohérent — une méthodologie bottom-up poursuivie en parallèle à UCLA et à CMU — en contraste avec les « Bayesiens puritains » de Stanford qui, posant d'emblée un modèle causal Bayesien (top-down), exploitent les données pour calibrer les probabilités a posteriori associées aux diverses structures causales candidates à la modélisation des faits. Les deux variantes de l'automatisation de la découverte des relations de cause à effet reviennent aujourd'hui au coeur même de la farouche concurrence des grands acteurs du Web.

Une incise : l'actualité récente dans le domaine des moteurs de recherche l'illustre parfaitement. Alors que Siri (#), l'assistant personnel de l'iPhone d'Apple, est annonciateur d'une évolution notable de l'usage des moteurs de recherches et, partant, du modèle économique prévalent actuellement, qui est phagocyté par Google pour le classement et la publicité en ligne, et que Watson d'IBM (#) est utilisé aux mêmes fins d'amélioration du service rendu à l'utilisateur chez Citi Group (#), les modèles causaux et leurs applications « sémantiques » attirent soudain les feux des projecteurs. Google est là empêtré dans la lutte contre les effets de bords de son algorithme de classement, se trouvant aujourd'hui contraint de « surtaxer » les pages jugées trop riches d'optimisation (#) — une idée savoureuse à l'heure préélectorale bien sombre où les candidats, unanimes et pitoyables de jalousie peccamineuse devant les réussites économiques, rivalisent bruyamment dans l'escalade fiscale confiscatoire à faire rendre gorge à l'Hydre du succès financier, décidément immoral et inacceptable ici, songent derechef à aboyer contre l'impérialisme numérique cosmopolite par le nouvel octroi d'une « Taxe Google » (#). La révélation, la semaine dernière (#), que les prochaines moutures du moteur de recherche ne se contenteront plus de fournir des liens aux requêtes des utilisateurs, mais s'inspirant de ses devanciers Siri, Wolfram Alpha (#) et Bing de Microsoft — chez qui l'équipe arrivée avec l'acquisition en 2007 de Medstory (#) a profondément transformé et enrichi l'algorithme de recherche — mais calculeront directement les réponses aux questions des internautes.

Afin d'aboutir à un modèle causal, Pearl part des premiers principes et de constatations élémentaires : d'une part, l'analyse purement statistique des données ne met en évidence que des covariations de variables sans impliquer logiquement de relation de cause à effet entre elles ; d'autre part, la plupart des formalisations de cette relation, en accord avec l'intuition naïve, invoquent une précédence temporelle entre la cause et l'effet. Hans Reichenbach, l'un des premiers membres du Cercle de Vienne, avait concrétisé ce point dans la notion de « cause commune » (#) dans son livre The Direction of Time publié en 1956 : des événements simultanés corrélés doivent avoir des causes communes antécédentes. Le besoin de formaliser cette idée, somme toute conforme au bon sens, s'était fait sentir au début du XXe siècle dans les cercles des physiciens pressés à l'étude du bouleversement simultané de la théorie de la Relativité d'Albert Einstein et de la Mécanique quantique, dans lesquelles la causalité perdait la netteté des contours que les définitions de la physique classique lui attribuaient jusqu'alors. La nécessité d'une formalisation de la causalité s'exportait alors au domaine de la logique mathématique, dont cette physique du début du XXe siècle avait remis l'importance au premier plan. Patrick Suppes (#), dans A Probabilistic Theory of Causality (1970) donne ainsi une version formelle en logique mathématique de la causalité. Mais l'information de succession temporelle seule ne permet pas non plus de distinguer entre des causes authentiques et des attributions fallacieuses de relation de cause à effet dues à des facteurs inconnus. (Le baromètre baisse avant l'averse mais cette baisse ne cause évidemment pas la pluie.)

Cette critique se trouvait déjà développée avec force dans une oeuvre tout à fait inattendue et bien méconnue, celles des Cahiers de Paul Valery. Plus connu comme poète que comme essayiste, Paul Valery s'attablait cependant, au petit matin, tous les jours de 1894 jusqu'à sa disparition en 1945, pour rédiger ce qui constitue 262 cahiers de notes serrées qui font de lui un systémicien pionnier avant la lettre. S'interrogeant lui-même sur les mécanismes les plus profonds de la pensée et du raisonnement — sujets qui, à le lire, bien loin des méthodes de la psychanalyse freudienne à vocation généraliste, le passionnent personnellement — il jette dans cette extraordinaire somme critique les bases que l'on retrouvera chez les premiers théoriciens des systèmes et de la cybernétique, de Ludwig von Bertalanffy à Heinz von Foerster, passeur vers le constructivisme radical de Ernst von Glasersfeld disparu fin 2010. Il illustre une veine psychologique dans la compréhension des possibilités de mécanisation de la pensée. Sous sa plume prémonitoire on lit, par exemple :

« Ce qui embrouille l'affaire du libre-arbitre, c'est la manie de regarder la série des événements comme linéaire selon l'antique type des causes et effets. Mais le moindre phénomène physique montre déjà une pluralité inextricable de constituants. »

C'est cet écheveau inextricable que les travaux de Pearl vont démêler.

Un mot encore sur le contexte des recherches de Pearl. La tâche de modélisation causale y est vue comme un jeu, au sens de la théorie probabiliste des jeux, que le scientifique joue contre la Nature. (Bien que, fameusement selon Einstein, elle ne joue pas aux dés.) Dans A Statistical Semantics for Causation (#), on pose que la Nature se caractérise par un mécanisme stable de causalité qui est descriptible par des relations fonctionnelles déterministes entre variables, dont certaines ne sont pas observables. La logique mathématique capture ces postulats sous la forme d'un graphe sans cycles que le scientifique s'efforce de reconstituer à partir des observations. Ce graphe orienté acyclique (DAG dans l'acronymne anglais directed acyclic graph) est nommé structure causale. Elle sert de spécification, de substrat au modèle causal qui, quant à lui, décrit précisément comment chacune des variables dépend effectivement des variables antécédentes dans la graphe de la structure causale. Une fois que le modèle causal est formé, il définit de facto une distribution de probabilités sur toutes les variables du système. Celle ci reflète évidemment les caractéristiques de la structure sous-jacente : chaque variable est, par exemple, indépendante de ses non-descendants dans le graphe, conditionnellement à ses antécédents immédiats (ce qui rend le modèle markovien en général). La Nature permet au scientifique d'observer un sous-ensemble incomplet des variables et d'étudier leur distribution de probabilités restreinte à ce sous-ensemble. La question que Pearl a résolu par l'affirmative est celle de la possibilité de reconstituer l'ensemble de la structure causale et du modèle à partir de ces observations fragmentaires de relations probabilistes locales entre quelques variables (#).

Comme un nombre illimité de modèles causaux peuvent engendrer la même distribution, variant chacun dans leurs ensembles de variables cachées et dans la forme des relations entre variables observées, il s'agit de les classer pour ne considérer que les extrêmes (premier ou dernier suivant ce classement), les modèles dits minimaux. Et là, comme l'avait observé à nouveau le précurseur Valery :

« Cependant l'idée de cause ne peut être totalement rejetée car il est bien difficile de s'en passer durant un raisonnement. Il faut alors lui reconnaître son caractère relatif et surtout subjectif et anthropomorphique. »

Pearl doit reparler de l'observateur humain qu'il avait escamoté dans ses axiomes. L'heuristique de classement mise en avant dans la théorie de la causalité de Pearl est celle du « Rasoir d'Occam » dont le moins que l'on puisse dire est que son statut dans la philosophie occidentale est complexe. Les modèles causaux minimaux sont ainsi les plus parcimonieux, les plus « simples ». Paul Valery, à nouveau :

« Et en somme quand la question de cause se pose, c'est en réalité quand on cherche une cause non connue, non donnée, qui satisfasse ma question, bien plus qu'au phénomène. »

(Voilà donc avec près d'un siècle d'avance, le marketing des communiqués de presse de Google sous la plume introspective d'un poète !)

« La preuve en est que la recherche des causes et la cause reconnue sont limitées tandis que les vraies conditions du phénomène s'étendent où l'on voudra. La cause est donc une réponse; elle n'est pas ce qui fait le phénomène. Déterminer la cause d'un phénomène, c'est choisir entre tous les phénomènes que suppose celui-ci, l'un d'eux. Ce qui détermine ce choix est distinct du phénomène à expliquer et est distinct du choix lui-même. »

La subjectivité refait surface immédiatement et la notion de cause, même formalisée, ne peut ainsi faire l'économie de l'observateur humain. Mais pour tenir éloignée la perspective d'une subjectivité de l'observateur englobant au final toute la théorie, Pearl introduit la notion de modèle causal stable, i.e. dont les relations d'indépendances conditionnelles ne sont pas détruites par des variations des paramètres de la distribution de probabilité.

Au passage, notons qu'une alternative à la stabilité de Pearl pour injecter une dose d'objectivité — ou réduire l'indéterminisme — pourrait être de faire appel à une forme de crowdsourcing, à la façon de Clay Shirky (#), dans le choix des modèles causaux comme dans le récent projet expérimental OpenProof (#).

D'ailleurs, contrairement à ce que laisserait penser l'aridité technique de la présentation de Pearl, les notions naïves ne tardent pas non plus à se réintroduire subrepticement dans la théorie. Comme mentionné plus haut, le discours humain naturel sur les explications causales doit, pour être recevable, satisfaire à deux sortes d'attentes : statistiques et temporelles. Devant la pérennité de ces exigences du discours explicatif durant des siècles d'observation scientifique, Pearl enrichit son modèle causal de la notion de temps statistique : tout ordonnancement des variables conforme à l'un au moins des modèles causaux minimaux. Enfin on réconcilie la physique et le modèle théorique en conjecturant un biais temporel, à savoir que dans la plupart des phénomènes naturels, le temps physique coïncide avec au moins un des temps statistiques du modèle. Valery encore le formulait de façon lapidaire dans une merveilleuse concision :

« Le déterminisme est la seule manière de se représenter le monde. Et l'indéterminisme, la seule manière d'y exister. » (1915)

Les hypothèses de minimalité et de stabilité permirent à Pearl de mettre au point un algorithme de récupération du modèle et de la structure causaux à partir des observations — IC pour Inductive Causation — devenu la pierre angulaire d'innombrables déclinaisons en analyse des données, en business intelligence et data mining, dans le traitement du langage naturel, dans les analyses sémantiques, dans la représentation des connaissances, et, plus récemment dans le vif renouveau de la théorie des graphes à la suite d'Albert-László Barabási (#), de Duncan Watts et Steven Strogatz (#), de Béla Bollobás (#) — sur lesquels plane l'ombre tutélaire de Paul (Pál) Erdős — dans le contexte des applications Web et du Big Data.

Après Leslie Valiant l'année dernière, le Prix Turing ne serait-il pas en train de signer l'avènement d'un nouvel âge de l'Intelligence artificielle ?