dimanche, septembre 30, 2012

La Charge de la preuve

Largement passés inaperçus, tant les médias entretiennent une distance avec les mathématiques considérées comme rebutant les audiences populaires, les décès récents, à quelques mois d'intervalles, des grands mathématiciens Nicolaas Govert de Bruijn (1918-2012) et William Thurston (1946-2012) auraient du percer le voile épais dont il est conforme d'étouffer l'esprit réputé pusillanime du grand public. (À ce sujet, il serait innovant et probablement salutaire d'essayer de renverser la tendance à l'abrutissement des masses en diffusant quotidiennement la lecture d'un chapitre du Théorème vivant du médaillé Fields Cédric Villani avant le tunnel publicitaire de 20h40 !) Si les travaux théoriques de De Bruijn et Thurston en analyse et combinatoire (#) et en topologie et géométrie (#), respectivement, ne sont guère accessibles aux lecteurs régulier de I Can Haz Cheezburger, ils ont néanmoins donné lieu à des applications très concrètes et devenues fondamentales en informatique.

 

Ces éminents mathématiciens ont notamment tous deux mené une réflexion sur la notion de preuve en mathématiques (#) et sur sa relation avec celle de vérification d'un programme informatique. À une époque où l'ubiquité des logiciels et des équipements informatiques affleure dans les moindres échanges en société, celle-ci transforme et redéfinit la notion même de risque. Comme le prévoyait déjà le sociologue Ulrich Beck dans Risikogesellschaft, le risque intermédié par l'envahissant système technique est devenu invisible : nos cinq sens ne sont plus d'aucun secours pour nous guider quant à l'innocuité de notre alimentation bio ou OGM, quant aux dangers réels d'une politique industrielle du nucléaire aussi bien que de l'exposition de données privées sur le Net ou de la sécurité de nos transactions bancaires même les plus communes. Dans les secteurs de l'informatique triomphante, la mutation silencieuse du risque et la dépendance croissante de la société à aux technologies d'automatisation fut largement illustrée par le psychodrame à épisodes du « Bug de l'an 2000 ». Il apparut, dans ce cas, que toutes ces inquiétudes, soigneusement entretenues dans les dernières années du XXe siècle, n'étaient heureusement pas justifiées. En revanche, elles illustrèrent précisément la difficulté de « l'honnête homme » à formuler un jugement sur la nature et la qualité des risque encourus. En conséquence, le citoyen, l'usager, l'utilisateur quelque soit le rôle qu'il joue, est de plus en plus réduit à s'en remettre aux jugements d'experts, dont l'autorité, bien que représentant le dernier recours face à l'incommensurabilité commune du risque moderne, est de plus en plus critiquée publiquement tant s'amenuise corrélativement la confiance dans les progrès scientifiques et la « moralité » des milieux techniques. Alors — par défaut, ou par dépit ? —, l'impression que l'abondance de données, la confiance dans les nombres et le nombre, pourrait nous sortir de ce dilemme conduisit ces mathématiciens et d'autres grands pionniers de l'informatique à s'intéresser à la question de la preuve des programmes. Si l'on pouvait mathématiquement prouver un logiciel, cette vérification permettrait de quantifier explicitement le risque dans son usage et de mitiger l'épineux problème de la confiance dans le système.

 

Notons que cette vision irénique du quantitatif comme arbitre bienveillant rapiécant le tissu effrangé de la confiance entre acteurs humains des systèmes techniques est aujourd'hui sensible dans le mouvement Big Data, dans lequel, à l'extrême, rien moins que la vérité d'un business ou de l'action d'un gouvernement émerge de la volumétrie statistique des données — plus grand le datacenter, plus gros le volume de données et plus vraie la parole oraculaire du Big Data (Big Daddy ? #). Naguère, aux origines (militaires) des ordinateurs à programmes stockés, l'instant de réalisation cathartique de la crise du logiciel survint sans nul doute à la conférence de Garmisch-Partenkirchen en 1968 — où il n'est pas inutile, sinon patriotique, de rappeller le rôle important joué par le professeur Louis Bolliet (#) — , sur le software engineering, un néologisme qui devait déclencher d'âpres polémiques. Devant la complexité déjà atteinte par les systèmes techniques déployés à l'époque dans les banques, les télécommunications, ou la défense, il fallait s'armer d'outils et d'instruments d'analyse et d'ingénierie si l'on voulait déminer ce qui était déjà perçu comme une crise de confiance. Il en sortit la programmation structurée dont les champions Edger Dijkstra (1930-2002) et Harlan Mills (1919-1996) devaient s'affronter avec acrimonie quelques années plus tard sur l'impact social du software engineering au sein des organisations.

 

Les méthodes de test et de revue de code développés dans les années 1970 (#) renvoyaient explicitement la question de la fiabilité des logiciels à celle de la fiabilité des « experts » chargés de les appliquer. D'autres, parmi lesquels De Bruijn, cherchèrent à mettre en oeuvre des méthode déductives, issues de la logique mathématique, pour vérifier les programmes. Contemporains du développement, principalement européen — comme alternative à l'américain FORTRAN ? —, du langage de programmation ALGOL (#), les premiers appels à une formalisation mathématique de la vérification des programmes furent entendus dans les années 1960. Largement amplifiés par l'activisme de John McCarthy (1927-2011) disparu il y a presqu'un an, l'idée que l'informatique devait prendre comme modèle la physique mathématique fit son trajet dans les esprits de la communauté. L'un des premiers programmes écrits par McCarthy en LISP, le langage de programmation fonctionnel directement inspiré de la logique mathématique qui l'a rendu au moins aussi célèbre que ses travaux au MIT sur le timesharing — et dont un des gardiens du temple, Dan Weinreb (1959-2012 #), co-initiateur de la norme Common Lisp vient également de disparaître il y a quelques semaines — était un vérificateur de preuves.

 

Dans le même temps, et dans le mouvement inverse, De Bruijn démontrait l'intérêt de l'ordinateur dans le travail du mathématicien et, en particulier, dans la question duale de celle posée par McCarthy : de la vérification automatisée de la preuve mathématique. Son système, Automath (#) 1967-1975, reste le précurseur de la lignée des « assistants de preuves » qui avec NuPRL (#) et Coq (#), par exemple, sont devenus d'usage presque courant (#). Coq dont il n'est pas inutile, sinon patriotique, de rappeller que l'histoire a démarré en 1984 avec Thierry Coquand et Gérad Huet.

 

On à peine à imaginer aujourd'hui, à l'époque où le proof-carrying code (#) fait partie des mondanités échangées par les Microsoft dans tous les salons où s'élaborent les doctrines sociales du développement de logiciels, le caractère révolutionnaire des propositions d'un McCarthy et d'un De Bruijn. Tous deux furent l'objet de critiques nourries tant des mathématiciens que des hommes de l'art de la programmation et de l'informatique, à l'exception que quelques rares visionnaires comme Donald Knuth qui professe toujours une grande admiration pour De Bruijn et McCarthy (#). John Markoff raconte que Knuth se glissait régulièrement tous les soirs pour des séances de programmation nocturnes dans les laboratoires du Stanford AI Lab (SAIL #) créé par John McCarthy, arrivé du MIT à Stanford en 1962. Des dizaines d'années plus tard, des 1.700 utilisateurs du monumental PDP, c'était lui qui avait laissé le plus de fichiers.

 

Plusieurs grands pionniers attachèrent leurs noms à cet effort de formalisation logico-mathématique de la preuve de programmes : Peter Naur, Robert Floyd (1936-2001), Sir Charles Antony Richard Hoare parmi les plus connus. Du côté de l'instrumentation des mathématiques par les ordinateurs et les programmes, en revanche, les débats furent plus houleux dans les années 1960 et 1970. Après la conférence fondatrice de l'Intelligence Artificielle à Dartmouth en 1956, et la présentation par Allen Newell (1927-1992) et Herbert Simon (1916-2001) de leur Logic Theory Machine, un « prouveur de théorème », deux camps s'affrontèrent. Ceux qui, comme McCarthy et son ancien pair au MIT Marvin Minsky, imaginent doter la machine d'une intelligence différente de l'humaine, et ceux qui, comme Newell et Simon, s'attachent plutôt à l'explicitation de l'intelligence humaine par sa simulation (émulation ?) en machine. De même, en 1976, la démonstration assistée par ordinateur du fameux théorème des quatre couleurs par Appel et Haken (#) fut accueillie glacialement par la communauté des mathématiciens. Enfin les collègues de jadis, McCarty et Minsky, devaient s'affronter sur l'usage de la logique formelle pour représenter connaissances et raisonnements, le groupe de la côte Ouest devenu ardent zélateur du principe de résolution (#) du philosophe et mathématicien John Alan Robinson, point culminant de travaux entamés, sans vouloir remonter à Gerhard Gentzen (1909-1945), par les mathématiciens logiciens Dag Prawitz puis Hilary Putnam et Martin Davis, d'une part, et le groupe de la côte Est, avec Minsky et Seymour Papert qui en contestaient (bruyamment !) l'universalité, d'autre part. La contestation fut mise en sourdine en 1974 par un papier de Michael Fisher et Michael Rabin (#) sur « l'exponentialité du problème de la décidabilité de l'arithmétique de Presburger », une arithmétique simplifiée avec laquelle Martin Davis avait inauguré les contributions des mathématiciens logiciens à la question de la preuve des programmes. Il n'est pas inutile, sinon patriotique, de rappeler que de l'intérêt pour l'automatisation de la preuve des logiciels par la logique formelle, dérivait celui spéculaire pour la programmation logique, dans laquelle Alain Colmerauer s'illustrait avec Prolog qui séduisit le Japon le temps d'une génération (la cinquième).

 

Malgré les critiques contre la vérification formelle des programmes, renouvelée la décennie suivante par Alan Perlis (1922-1990), Richard Lipton, Richard DeMillo, puis par James Fetzer, le financement des recherches, notamment par les agences militaires américaines, sur ce sujet ne se tarissent pas au nom de la défense des intérêts nationaux. Nonobstant la différence établie entre les aspects « sociaux » de la pratique de la preuve et de sa vérification dans son avatar mathématique et la rigueur logico-déductive désirable pour son alter ego informatique — que l'on contraste le processus et la réception de la preuve d'Appel et Haken avec ceux de la preuve du théorème de Fermat par Andrew Wiles quinze ans plus tard — les méthodes formelles, malgré les théorèmes d'incomplétude de Kurt Gödel (1906-1978) — il n'est pas inutile, sinon patriotique, de rappeler aussi les travaux originaux de Jacques Herbrand (1908-1931) sur ce même sujet à la même époque — assurent aujourd'hui pour beaucoup le travail de Sisyphe d'allègement de la charge de la preuve.

 

dimanche, septembre 02, 2012

L'importance de la pensée systémique quantitative pour le Big Data

Introduction

Le constat que l'hyper-développement d'Internet et du Web permet aujourd'hui la production et le stockage de quantités inouïes de données est devenu une banalité évidente. L'ingéniosité linguistique du marketing américain n'a guère tardé à forger un raccourci : « Big Data », à la saisissante concision, pour circonvenir ce processus (#).

 

Facebook digère quotidiennement 2,5 millions de « contenus », plus de 500 téraoctets (10 puissance 12) de données (#), et s'enorgueillissait récemment d'opérer le plus gros cluster Hadoop de la planète (100 petaoctets, 10 puissance 17). Le Sloan Digital Sky Survey (#) lancé en 2000 collecte plus de 200 gigaoctets de données astronomiques par nuit, toutes accessibles sur le Net. La découverte du boson de Higgs (#) atteint à de nouveaux records de volume de données scientifiques. Le système automatisé de détection de fraude de FICO (#) travaille sur 2,1 milliards de comptes en ligne — son l'infrastructure (Decision Management Architecture) est, par acquisition et intégration successives, un avatar bien lointain et singulièrement enrichi de la modeste contribution technologique aux systèmes experts de la startup paléo-historique co-fondé par l'auteur de ces lignes, Neuron Data. La recherche biologique et médicale produit couramment des petaoctets de données liées aux génomes, protéomes, métabolomes et autres « multi-omes » dont l'intégration (#) et la visualisation (#) deviennent problématiques. La grande distribution traite des millions de transactions par heure en ligne (#). Et les rythmes s'accélèrent de jour en jour.

 

La réponse actuelle au déluge des données est essentiellement de nature technologique (computational) : une expérimentation frénétique et la mise au point de méthodes combinatoires et algorithmiques, où l'unité est le milliard (#) adaptées à ce nouveau contexte quantitatif. Elle n'est nulle part plus apparente que dans le renouveau de la recherche théorique d'une part sur les thèmes du stockage, de l'optimisation et de la transmission au coeur de l'infrastructure naissante du cloud computing, et, d'autre part, sur la formalisation logique et mathématique d'algorithmes que l'on sait d'avance indispensables à la phase d'analyse des données que le mouvement Big Data inaugure. Prosaïquement, le succès croissant de R (#) est un bon indicateur (statistique !) de cette réponse.

 

S'il est indéniable que cette compréhension du phénomène Big Data et de son impact est très importante, elle n'en reste pas moins insatisfaisante par sa paradoxale étroitesse de vue. Ne faudrait-il pas, en effet, viser à un modèle conceptuel de l'intégration à toutes les échelles, de celle de l'octet matériel, de la donnée atomisée, peut-être anonyme, à celle de l'agent individuel qui la produit ou la consomme, jusqu'à celles du groupe, de la société, de l'écosystème dans lesquels ces agents eux-mêmes interagissent ? Les Big Data éclairent crûment le problème de la modélisation de la complexité à toutes les échelles. Ne signaleraient-elles pas ainsi le déploiement à venir d'une pensée systémique dont les racines plongent, comme elles, dans l'histoire même de la technique ?

 

Un canevas théorique pour le stockage et le calcul réparti

En octobre 1986, la congestion brutale de NSFNet — la phase expérimentale de la colonne vertébrale d'Internet, le réseau backbone — qui voyait brutalement son débit chuter de 32 kbits/s à 40 bits/s (#), provoquait l'effondrement le l'Internet naissant. Le vénérable protocole TCP/IP qui jusqu'à nos jours continue de servir la transmission des paquets de données sur le Net cherche à réconcilier les objectifs contradictoires de l'utilisation maximale des canaux de transmission — maintenir « en vol » le plus grand nombre de paquets — et de minimiser le délai de transmission de bout en bout — (et retour) : la « latence » perçue par les utilisateurs. Entre points de départ et de destination, le goulot d'étranglement est constitué par le lien de transmission de plus faible débit. À mesure que l'on augmente le nombre de paquets en vol, le débit général augmente et le délai de transmission reste rapide, puis une fois le débit du goulot d'étranglement atteint le débit reste fixe et les délais se mettent à augmenter. Les paquets s'empilent dans des mémoires cache présentes à chacun des noeuds du réseau en attente de leur transmission sur le lien suivant. Une fois ces mémoires cache pleines, les paquets entrants sont rejetés provoquant des ré-émissions en rafales et la congestion se produit de façon épidémique. Ces difficultés conduisirent à la mise en place d'algorithmes nouveaux de gestion des mémoires cache, connus sous le nom d'active queue management, et, en particulier, de l'algorithme dit random early detection de Van Jacobson et Floyd (#).

 

Cet épisode est une illustration typique d'une machine à feedback complexe nous ramènerait directement aux balbutiements de la cybernétique de Norbert Wiener (1894-1964) du Communication and Control in the Animal and in the Machine, qui se caractérise, d'une part, par « la biologisation de la machine et la mécanisation de la biologie » comme dit Seymour Papert (Épistémologie de la cybernétique) et, d'autre part, par le passage d'un modèle de la machine dont le fonctionnement est dominé par la transformation et la transmission d'énergie à celui dans lequel, à côté de ce flux d'énergie, apparaît un flux d'information qui devient progressivement plus important — jusqu'à réduire les échanges énergétiques à un rôle auxiliaire. On peut alors voir dans le logiciel et notamment dans les logiciels répartis iconiques du cloud computing, MapReduce, Hadoop, Pregel, machines virtuelles, bases de données NoSQL, des expressions particulièrement développées de ces machines informationnelles.

 

Notons qu'en raison du peu de discipline dans l'upgrade des algorithmes d'AQM dans les routeurs du Net et de l'accroissement massif des mémoires cache, rendu possible par la volonté mal encadrée de diminuer le nombre de paquets rejetés et par le prix décroissant de la mémoire physique ; mémoires cache maintenant proliférantes dans tous les équipements terminaux et coeur de réseau, on constate à nouveau des problèmes de congestion massive après une période d'accalmie temporaire (#).

 

C'est une forme de la malédiction de la non-linéarité dont les études originelles dans les domaines de la mathématique de la physique des turbulences, de l'hydrodynamique et de l'évolution des populations en biologie et en sciences de l'environnement ont donné naissance à la théorie des comportements chaotiques, véritable succès des sciences de la complexité. (cf. Stuart Kauffman, Mitchell Waldrop, Melanie Mitchell pour des exposés récents.)

 

Et de fait ce sont les simulations sur ordinateur qui, dès l'origine, ont eu la plus grande influence sur les début du développement des sciences de la complexité. Enracinées dans les travaux fondamentaux et transdisciplinaires de l'IAS de Princeton, comme le raconte George Dyson dans Turing's Cathedral. C'est sur ce campus, prolongement séculier de l'univers mental de John von Neumann (1903-1957) où séjournèrent Einstein, Turing, Borel, Gödel, Weyl, Atiyah et tant d'autres, que se constituèrent les bases modernes de la compréhension de la programmation, des automates et de l'ordinateur, des réseaux de télécommunications, des mathématiques de la complexité et des réseaux et de leurs applications à la sociologie et à l'économie aussi bien qu'à la physique quantique et à la biologie.

 

Les sciences de la complexité montrent que la formidable diversité et le comportement complexe des systèmes adaptatifs à l'échelle globale, y compris l'émergence de structure à plusieurs échelles et d'une organisation individuelle, peuvent émaner de règles très simples régissant les interactions des constituants de ces systèmes. Cette confirmation d'abord expérimentale, appuyée sur des simulations par ordinateur, stimulant un renouveau de recherches théoriques d'inspiration mathématique et biologique est aujourd'hui à l'oeuvre dans des secteurs aussi variés que la biologie et les sciences de la santé, la sociologie et l'économie.

 

Si cette approche épistémique du phénomène actuel des Big Data est correcte elle met en avant une mise en abyme de la machine, substrat des simulations de systèmes vus eux-mêmes comme des machines pour accéder à une compréhension de l'objet technique universel qu'elle représente. Des idées tout à fait dans la lignée des projets de théorie des machines de pionniers français dont l'oeuvre peu connue aujourd'hui mériterait une nouvelle visite à la lueur de la maturité des sciences du complexe : Jacques Lafitte (1884-1966) et la « mécanologie » (publiée en 1932), Louis Couffignal (1902-1966) préfigurant l'analyse fonctionnelle de Wiener dès 1938, Jacques Riguet et la théorie algébrique des machines. Ce dernier fut d'ailleurs proche de Benoît Mandelbrot (1924-2010) et de William Ross Ashby (1903-1972) tous deux grands contributeurs à l'école de cybernétique américaine et dont l'influence est présente dans les sciences de la complexité. « Sous l'influence des progrès des sciences mécaniques et physiques, [...] la machine,d'abord considérée comme un transformateur de mouvement, s'est trouvée successivement considérée comme un transformateur de forces, puis d'énergie. Il est aisé de voir que ces définitions différentes reposent toutes sur la considération de certains phénomènes dont la machine est le siège, et non sur la considération de la machine elle-même en tant que phénomène » écrit, par exemple, Lafitte en 1932. C'est donc bien la mise en abyme qui constitue le moment fondamental de la modélisation dans l'essai de théorisation des machines.

 

Universalité du changement d'échelle dans les réseaux

Pour poursuivre dans cette direction, le cadre théorique qui manque aujourd'hui pour comprendre les Big Data et, en particulier, les mettre au service de la prédiction (#), serait à chercher dans dans certains résultats des sciences de la complexité, notamment dans les lois d'échelle issues des recherches académiques récentes dans ce domaine.

 

L'exemple de l'utilisation du moteur de recherches de Google pour le suivi et la prédiction de la diffusion de la grippe sont maintenant bien connus (#). La corrélation entre haut PNB et ratio élevé de requêtes Google liées à l'avenir sur celles liées au passé ont également fait l'objet d'une analyse étayée (#). Global Pulse (#) des Nations Unies est un projet d'exploitation des qualités prédictives des Big Data pour le développement humain dans les régions défavorisées. Et les réseaux sociaux deviennent des champs d'études sociologiques théoriques sans même avoir à visiter les Tristes Tropiques (réalisant le fameux « je hais les voyages » que plaçait d'ailleurs Claude Levi-Strauss (1908-2009) en guise d'incipit à ces mémoires).

 

La demande de cadre théorique est devenue tellement pressante devant le rythme de l'accumulation des Big Data, que pour l'analyste le choix même du modèle statistique pertinent à appliquer pour exploiter le tsunami de données est en train de devenir elle-même une question préalable de « méta modélisation » théorique complexe ! Un travail de Schwartz, Bradlow et Fader, de l'Université de Pennsylvanie publié en juin dernier (#), par exemple, pose la question de quel modèle statistique choisir pour analyser un jeu de données de grand volume dans un objectif business explicitement énoncé ? On franchit ici une étape supplémentaire sur le chemin des Simulacres et Simulations de Jean Baudrillard.

 

Qu'apporte ici le canevas théorique esquissé ci-dessus ? Sans rentrer dans le détail mathématique de leur formalisation, dont la genèse est en soi pleine d'enseignement, nous nous contenterons de citer quelques illustrations de l'universalité de ces lois de changement d'échelle et d'indiquer leurs connivences avec les Big Data.

 

Un premier fil conducteur mathématique mène des processus stochastiques, étudiés, entre autres, par Paul Lévy (1886-1971), à la méthode d'analyse des transducteurs de Wiener, puis, par le détour de Claude Shannon (1916-2001), un autre éminent visiteur de l'IAS en 1940, et de sa théorie de l'information, à la théorie actuelle de la « mécanique computationelle » — si l'on me permet un néologisme mot à mot traduit, meilleur que la mécanique du calcul — de James Crutchfield (#) à UC Davis et au Santa Fe Institute. Le monstre chaotique, qui a triomphé du déterminisme strict de Pierre-Simon Laplace (1749-1827), a donc enfanté une quantification viable des motifs et des correspondances (patterns) dans la structure des données. Ces outils quantitatifs nouveaux révèlent l'information et, partant, promettent l'accès aux connaissances, que codent les flux massifs de données d'aujourd'hui.

 

Un second fil conducteur est celui de la modernisation de la théorie des graphes, une affaire presque entièrement due à des mathématiciens hongrois de premier plan (#) — Paul Erdős (1913-1993), Endre Szemerédi, Dénes Kőnig (1884-1944), Gyulia Katona, Béla Bollobás, Zoltán Füredi, Alfréd Rényi (1921-1970) parmi d'autres. Au long de cette tresse on trouve l'émergence systématique d'un composant connexe géant dans le modèle de croissance des graphes aléatoires (#) — modèle dans lequel on connecte au hasard deux sommets parmi les n avec une probabilité donnée p, et dont le comportement à la limite des n très grands montre des changements abrupts en fonction de p totalement inattendus. Le second résultat est celui de la prédominance des power laws (lois de puissances) à toutes les échelles dans de nombreuses manifestations de l'évolution ou de l'adaptation de systèmes complexes : réseaux scale-free de Barabási-Albert (#) qui expliquent la croissance d'Internet, du Web, des réseaux sociaux, des interactions entre protéines, des réseaux de transport aérien, etc. ; réseaux small-world de Watts et Strogatz (#) dans les réseaux de neurones, de collaboration d'auteurs de papiers académiques ou d'acteurs dans des films, de relations sociales, etc. (#) ; la loi de Kleiber, du biologiste Max Kleiber (1893-1976) et les modèles (fractals) d'échelle allométriques (#) (#) en biologie, théorie des populations et écosystèmes ; les limites physiques des théories de l'information (#).

 

Cette universalité apparente que l'on lit aujourd'hui dans les Big Data n'est pas non plus sans poser des questions qui, traduites dans le vocabulaire du jour, tournent autour de la sécurité des données, notamment du fichage et du flicage des données privées, de l'identité numérique et du délitement de l'esprit scientifique de synthèse. Cette critique, voire cette contre-réaction, avait été étudiée par Gilbert Simondon (1924-1989) qui s'interrogeait (#) déjà sur Le Mode d'existence des objets techniques et sur le malaise de ses contemporains envers la technique, allant jusqu'à la technophobie ou la technofolie (L'individuation psychique et collective).

 

Conclusions

Le sillage apparent des vagues scélérates Big Data semble porter une tendance réductionniste (#). L'instrumentation matérielle, stockage et transmission, et logicielle, traitements distribués, des Big Data sont les premiers efforts visibles produits pour ramener le complexe au simple (#). Mais cet outillage, pour important et indispensable qu'il soit, n'est que cela, instrumental, dans l'élaboration d'un cadre théorique englobant la complexité des phénomènes dont les Big Data sont la manifestation. Pour accéder à une véritable connaissance scientifique sur la base des Big Data, il faudra certainement un canevas qui embrasse frontalement des notions constructivistes et l'élaboration progressive — parfois abrupte comme dans l'émergence de comportements globaux — des structures. Les résultats récents obtenus par les sciences de la complexité, plus peut-être que la statistique traditionnelle — cf. Cosma Shalizi (#) et les deux cultures de la modélisation statistique de Leo Breiman (1928-2005) (#) — pourraient fournir ce cadre conceptuel dont le défaut se fait jour.

 

ShareThis