lundi, mars 12, 2007

Le retour discret de l'IA sur le Web

Se pourrait-il que l'Intelligence artificielle (IA), domaine de recherche qui connut son heure de gloire à la fin des années 1970 et pendant les années 1980 avant de disparaître totalement des radars, fasse discrètement une timide réapparition sur le Web ?

Tout d'abord, les zélotes seront prompts à répliquer d'emblée que l'IA loin d'avoir disparu est, au contraire, omniprésente mais souvent invisible à l'oeil non averti. Admettons donc de bonne grâce, qu'aux tréfonds des « clearinghouses » des transactions par carte de crédit vibrent toujours quelques systèmes experts et autres réseaux de neurones, que dans les boîtiers anti-spam, que nous installons par douzaine, des réseaux probabilistes continuent aujourd'hui à prolonger les intuitions inductives du Reverend Thomas Bayes, et que dans les temples manufacturiers du taylorisme, la programmation par contraintes - informatique et toute virtuelle s'entend ! - optimise discrètement mais sûrement les délocalisations. Dont acte.

Mais, me semble-t-il, à regarder le chemin parcouru par la discipline on est arrivé assez loin du projet des fondateurs, comme John McCarthy (Turing Award en 1971) qui déclarait que l'IA était le génie et la science de la construction de machines intelligentes et, en particulier, de logiciels intelligents. Allen Newell (1927-1992), autre père fondateur de la discipline, précisait que l'IA se rapprochait un peu des tentatives comparables d'utilisation de l'ordinateur pour comprendre l'intelligence humaine mais l'IA n'avait pas à se limiter aux systèmes biologiques observables dans la nature. Aujourd'hui on dispose donc de programmes qui battent les champions du monde d'échecs et comprennent les conversations téléphoniques mais sont incapables de se débrouiller comme un enfant de quatre ans le ferait.

Le mariage morganatique de l'IA aux intérêts séculiers et commerciaux des marchands de règles métier ne fait pas l'affaire du W3C qui entend bien revenir à la noblesse du programme originel inspiré des fondateurs. Tim Berners-Lee avait pris l'initiative, en février 2004, du Web Sémantique (Semantic Web) une tentative de « redonner du sens au Web ». Avec de nouveaux standards, tous dérivés de XML, comme RDF (Resource Description Framework) et OWL (Web Ontology Language) il s'agit de représenter de l'information, et plus seulement des données, et échanger des connaissances sur le Web.

Aujourd'hui le W3C annonce « l'incubation » d'une nouveau projet : raisonnement sur l'incertain pour le World Wide Web, dans la lignée directe du Web Sémantique. Que nous dit, en effet, le W3C ?

- l'information extraite du Web est typiquement incomplète ;
- beaucoup des informations présentes sur le Web sont elles-mêmes incertaines ;
- elles sont aussi parfois incorrectes ou partiellement correctes ;
- la prolifération d'ontologies incompatibles entre elles menace l'harmonie du Web Sémantique, comment échanger ces fameuses connaissances avec certitude ?
- enfin, la généralisation de l'architecture orientée services impose la résolution « au vol », i.e. à l'exécution, des ressources nécessaires aux applications Web : le raisonnement sur l'incertain permettrait d'avancer dans les situations où l'identification des ressources n'est pas encore définitive.

Tout utilisateur de Wikipedia, par exemple, s'est certainement déjà rendu compte que l'on nage dans l'incertitude ! Et que dire, en effet, des résultats des moteurs de recherche ? La mission du groupe de travail est d'identifier ces situations d'incertitude à l'échelle du Web et de proposer des approches pour y apporter une solution ou, à défaut, une mesure. Mon intuition me dit que l'on va voir revenir quelques uns des grands canons de l'IA : ensembles flous (Zadeh), théorie de Dempster-Shafer, la logique des défauts de Reiter, réseaux bayesiens, tribus et probabilités vont reprendre du service sur le Web.

Au même moment, quelques initiatives privées notables s'attaquent à la question. Quelques jours après le rachat de Medstory, un moteur de recherche vertical à base d'IA, par Microsoft, c'est au tour de Danny Hillis, une célebrissime figure de la communauté IA, d'annoncer sa nouvelle et ambitieuse startup, Metaweb technologies. L'esprit particulièrement fécond de Danny Hillis avait déjà mis au point la fameuse « Connection Machine », au MIT en 1983 pendant son doctorat, et créé une startup, Thinking Machines (quel nom !), pour exploiter cette première machine massivement parallèle - 65.536 processeurs pour la plus grande. Après la disparition de Thinking Machines en 1994, Danny Hillis avait rejoint le centre de recherche et développement de la Walt Disney Company. Sa nouvelle idée est tout simplement démesurée. Metaweb veut créer une base de données centralisée de toute l'information numérique publique, Freebase, à laquelle tout un chacun est appelé à contribuer. Dans cette implosion imaginée du Web, les informations très structurées permettent à Freebase de faire des inférences, de trouver des connexions, d'induire des relations entre les données, de déduire de nouvelles informations, bref de « donner du sens » aux résultats de requêtes plutôt que de présenter de (très) longues listes de documents à la valeur incertaine.

De la part de tout autre que Danny Hillis, on s'interrogerait sur les effets de la recherche et développement prolongée chez Walt Disney, mais le parcours du prodige de l'IA parle plutôt en sa faveur. Tim O'Reilly, tourneur de métaphore tournant parfois à l'adynaton, s'est écrié : « c'est comme construire les synapses du cerveau global ! ». Freebase a déjà reçu quelques contributions importantes de Wikipedia, bien sûr, mais également des informations sur 4 millions de morceaux de musique du site Musicbrainz, sur des restaurants du guide en ligne libre ChefMoz.org, etc.

Voilà qui rappelle un plus ancien projet encore, lancé en 1984 par une autre figure culte du monde de l'IA, Doug Lenat. Le projet, Cyc, fut qualifié à sa naissance de « quête à long terme de la véritable intelligence artificielle ». Rien moins. Cyc a également donné lieu à la création d'une startup, Cycorp, en 1994, mettant à la disposition des développeurs une base de connaissances de plus de 300.000 concepts, du plus simple au plus complexe, et de plus de 3 millions relations entre eux qui constituent le « sens commun ». (Descartes écrivait d'ailleurs : « Le bon sens est la chose du monde la mieux partagée : car chacun pense en être si bien pourvu, que ceux même qui sont les plus difficiles à contenter en toute autre chose, n'ont point coutume d'en désirer plus qu'ils en ont », sans penser peut-être au Web intelligent !) Cyc est déjà capable de répondre à des questions posées en « langage naturel », encore un compartiment de recherche en IA qui revient sur le devant de la scène.

Saluons donc le retour discret de l'IA sur la scène du Web, même si l'on n'y trouve, pour l'instant, qu'une vue assez aristotélicienne de la connaissance.

ShareThis