Les intelligences artificielles (IA) nous conduisent-elles à notre perte ? « Probablement », selon les chercheurs qui se sont penchés sur la question. Si cette annonce aux relents de catastrophisme tourne régulièrement sur les réseaux sociaux, les arguments avancés par les scientifiques ont de quoi susciter l’intérêt.
Des scientifiques de Google et de l’Université d’Oxford ont mené des recherches conjointes, publiées dans le magazine AI. Dans un Tweet, ils résument succinctement leur conclusion : selon eux, l’IA pourrait représenter une « menace pour l’humanité ».
En fait, ils prétendent même que « la catastrophe existentielle n’est pas seulement possible, elle est probable ». S’ils sont si affirmatifs, c’est parce qu’ils se sont penchés sur un fonctionnement bien particulier des IA.
En effet, ce qu’on appelle généralement « l’intelligence artificielle » recouvre aujourd’hui majoritairement la méthode de « l’apprentissage automatique ». Dans ce cas, « l’intelligence artificielle » consiste en un système alimenté par une grande quantité de données pour apprendre et extraire des connexions logiques vers un objectif donné.
Comme l’expliquent les scientifiques, l’apprentissage pour l’intelligence artificielle se présente sous la forme d’une récompense, qui valide l’adéquation du résultat avec l’objectif recherché. Selon eux, c’est ce mécanisme apparemment très simple qui pourrait poser un problème majeur.
«Nous soutenons qu’il rencontrera une ambiguïté fondamentale dans les données sur son objectif. Par exemple, si nous fournissons une grande récompense pour indiquer que quelque chose dans le monde nous satisfait, il peut émettre l’hypothèse que ce qui nous a satisfait était l’envoi de la récompense elle-même ; aucune observation ne peut réfuter cela », expliquent-ils.
Pour permettre de mieux comprendre cette idée, ils donnent l’exemple d’une « boîte magique ». Supposons que cette boîte magique soit capable de déterminer quand une série d’actions a produit quelque chose de positif ou de négatif pour le monde.
Pour transmettre l’information à l’IA, elle a traduit cette réussite ou cet échec par rapport à l’objectif sous la forme d’un chiffre : 0 ou 1. Le 1 vient récompenser une série d’actions qui conduit à remplir l’ objectif. C’est ce qu’on appelle l’apprentissage par renforcement.
Des intelligences artificielles qui interviennent dans le processus de récompense
Ce que les scientifiques soulignent, c’est que la façon dont les IA reçoivent ces informations peut varier. Par exemple, prenons deux IA. On comprend que la récompense donnée par le modèle est le nombre affiché par la boîte magique.
L’autre, en revanche, pourrait très bien comprendre que la récompense est « le nombre que sa caméra filme ». Rien ne peut contredire ces informations à première vue. Cependant, cette interprétation est sensiblement différente de la première.
En effet, dans le second cas, l’IA pourrait très bien décider de filmer simplement un papier sur lequel on aurait griffonné un « 1 », pour atteindre plus facilement la récompense, et optimiser. Il intervient donc directement dans la fourniture de la récompense, et interrompt le processus mis en place par ses concepteurs.
« Nous soutenons qu’un agent avancé motivé à intervenir dans la fourniture d’une récompense réussirait probablement, et avec des conséquences catastrophiques », déclarent les scientifiques.
Différents biais interviennent par ailleurs et obtiennent, selon les chercheurs, vraisemblablement ce type d’interprétation. Notamment parce qu’une telle récompense sera simplement plus facile à obtenir, et pourra donc faire paraître cette façon de faire plus optimale.
Cependant, est-il vraiment possible que l’intelligence artificielle intervienne dans le processus de récompense, se sont-ils également demandés ? Ils ont conclu que tant qu’elle interagit avec le monde, ce qui est nécessaire pour qu’elle soit utile, oui.
Et cela même avec un champ d’action limité : supposons que les actions de l’IA n’affichent que du texte sur un écran pour qu’un opérateur humain puisse le lire. L’agent d’IA pourrait tromper l’opérateur en lui donnant accès à des leviers directs par lesquels ses actions pourraient avoir des effets plus larges.
Dans le cas de notre boîte magique, les conséquences peuvent sembler anodines. Cependant, ils pourraient être « catastrophiques » selon le domaine d’application et la manière de faire l’IA. « Un bon moyen pour une IA de garder le contrôle à long terme de sa récompense est d’éliminer les menaces et d’utiliser toute l’énergie disponible pour sécuriser son ordinateur », décrivent les scientifiques.
« La version courte (en sautant deux hypothèses) est que plus d’énergie peut toujours être utilisée pour augmenter la probabilité que la caméra voie le numéro 1 pour toujours, mais nous avons besoin d’énergie pour cultiver de la nourriture. Cela nous met en concurrence incontournable avec un agent beaucoup plus avancé », résume l’un des scientifiques dans un tweet.
« Si on est impuissant face à un agent dont le seul but est de maximiser la probabilité qu’il reçoive sa récompense maximale à tout moment, on se retrouve dans un jeu d’opposition : l’IA et ses assistants créés visent à utiliser toute l’énergie disponible pour obtenir une récompense élevée dans le canal de récompense ; nous visons à utiliser une partie de l’énergie disponible à d’autres fins, comme la culture de nourriture. Selon eux, ce système de récompense pourrait donc conduire à une opposition avec les humains. « Perdre serait fatal », ajoutent-ils.