De nombreux détails sur la séquence exacte des événements qui ont conduit au départ de Gebru ne sont pas encore clairs; elle et Google ont refusé de commenter au-delà de leurs publications sur les réseaux sociaux. Mais MIT Technology Review a obtenu une copie du document de recherche de l’un des co-auteurs, Emily M. Bender, professeur de linguistique computationnelle à l’Université de Washington. Bien que Bender nous ait demandé de ne pas publier l’article lui-même parce que les auteurs ne voulaient pas qu’un projet aussi précoce circule en ligne, cela donne un aperçu des questions que Gebru et ses collègues soulevaient à propos de l’IA qui pourraient inquiéter Google.
Intitulé «Sur les dangers des perroquets stochastiques: les modèles de langage peuvent-ils être trop grands?» le document expose les risques des grands modèles de langage – IA formés sur des quantités stupéfiantes de données textuelles. Celles-ci sont devenues de plus en plus populaires – et de plus en plus importantes – au cours des trois dernières années. Ils sont maintenant extraordinairement bons, dans les bonnes conditions, pour produire ce qui ressemble à un nouveau texte convaincant et significatif – et parfois pour estimer le sens à partir du langage. Mais, dit l’introduction du document, «nous demandons si une réflexion suffisante a été menée sur les risques potentiels associés à leur élaboration et les stratégies pour atténuer ces risques.»
Le papier
Le document, qui s’appuie sur les travaux d’autres chercheurs, présente l’histoire du traitement du langage naturel, un aperçu de quatre risques principaux des grands modèles de langage et des suggestions pour de nouvelles recherches. Étant donné que le conflit avec Google semble porter sur les risques, nous nous sommes concentrés sur les résumer ici.
Coûts environnementaux et financiers
L’entraînement de grands modèles d’IA consomme beaucoup de puissance de traitement informatique, et donc beaucoup d’électricité. Gebru et ses co-auteurs se réfèrent à un article de 2019 d’Emma Strubell et de ses collaborateurs sur les émissions de carbone et les coûts financiers des grands modèles linguistiques. Il a constaté que leur consommation d’énergie et leur empreinte carbone explosaient depuis 2017, les modèles alimentant de plus en plus de données.
L’étude de Strubell a révélé qu’un modèle de langage avec un type particulier de méthode de «recherche d’architecture neuronale» (NAS) aurait produit l’équivalent de 626 155 livres (284 tonnes métriques) de dioxyde de carbone, soit la production à vie de cinq voitures américaines moyennes. Une version du modèle linguistique de Google, BERT, qui sous-tend le moteur de recherche de l’entreprise, a produit 1 438 livres d’équivalent CO2 selon l’estimation de Strubell – presque la même chose qu’un vol aller-retour entre New York et San Francisco.
Le projet de document de Gebru souligne que les ressources nécessaires pour construire et maintenir de si grands modèles d’IA signifient qu’ils ont tendance à profiter aux organisations riches, tandis que le changement climatique frappe plus durement les communautés marginalisées. «Il est plus que temps pour les chercheurs de donner la priorité à l’efficacité énergétique et au coût pour réduire l’impact environnemental négatif et l’accès inéquitable aux ressources», écrivent-ils.
Données massives, modèles insondables
Les grands modèles de langage sont également formés sur des quantités de texte en croissance exponentielle. Cela signifie que les chercheurs ont cherché à collecter toutes les données qu’ils pouvaient sur Internet, il y a donc un risque que des propos racistes, sexistes et autrement abusifs se retrouvent dans les données de formation.
Un modèle d’IA enseigné à considérer le langage raciste comme normal est évidemment mauvais. Les chercheurs soulignent cependant quelques problèmes plus subtils. La première est que les changements de langue jouent un rôle important dans le changement social; les mouvements MeToo et Black Lives Matter, par exemple, ont tenté d’établir un nouveau vocabulaire anti-sexiste et antiraciste. Un modèle d’IA formé sur de vastes étendues d’Internet ne sera pas à l’écoute des nuances de ce vocabulaire et ne produira ni n’interprétera un langage conforme à ces nouvelles normes culturelles.
Il ne parviendra pas non plus à saisir la langue et les normes des pays et des peuples qui ont moins accès à Internet et donc une moindre empreinte linguistique en ligne. Le résultat est que le langage généré par l’IA sera homogénéisé, reflétant les pratiques des pays et des communautés les plus riches.
De plus, comme les ensembles de données d’entraînement sont si volumineux, il est difficile de les auditer pour vérifier ces biais intégrés. «Une méthodologie qui repose sur des ensembles de données trop volumineux pour être documentés est donc intrinsèquement risquée», concluent les chercheurs. «Alors que la documentation permet une responsabilité potentielle, […] des données de formation non documentées perpétuent des préjudices sans recours. »
Rechercher les coûts d’opportunité
Les chercheurs résument le troisième défi comme le risque d’un «effort de recherche mal orienté». Bien que la plupart des chercheurs en IA reconnaissent que les grands modèles de langage ne sont pas réellement comprendre langue et sont simplement excellents manipuler Cela permet aux Big Tech de gagner de l’argent grâce à des modèles qui manipulent le langage avec plus de précision, de sorte qu’ils continuent à y investir. «Cet effort de recherche entraîne un coût d’opportunité», écrivent Gebru et ses collègues. Le travail sur des modèles d’IA susceptibles de permettre une compréhension ou d’obtenir de bons résultats avec des ensembles de données plus petits et plus soigneusement organisés (et donc également moins d’énergie) ne demande pas autant d’efforts.
Illusions de sens
Le dernier problème avec les grands modèles de langage, disent les chercheurs, c’est que parce qu’ils sont si doués pour imiter le vrai langage humain, il est facile de les utiliser pour tromper les gens. Il y a eu quelques cas très médiatisés, comme l’étudiant qui a produit des conseils d’auto-assistance et de productivité générés par l’IA sur un blog, qui est devenu viral.
Les dangers sont évidents: les modèles d’IA pourraient être utilisés pour générer de la désinformation sur une élection ou la pandémie de covid-19, par exemple. Ils peuvent également se tromper par inadvertance lorsqu’ils sont utilisés pour la traduction automatique. Les chercheurs citent un exemple: en 2017, Facebook mal traduit un message d’un Palestinien qui disait «bonjour» en arabe, comme «attaquez-les» en hébreu, ce qui a conduit à son arrestation.
Pourquoi est-ce important
L’article de Gebru et Bender compte six co-auteurs, dont quatre sont des chercheurs Google. Bender a demandé d’éviter de divulguer leurs noms par crainte de répercussions. (Bender, en revanche, est professeur titulaire: «Je pense que cela souligne la valeur de la liberté académique», dit-elle.)
L’objectif de l’article, dit Bender, était de faire le point sur le paysage de la recherche actuelle dans le domaine du traitement du langage naturel. «Nous travaillons à une échelle où les gens qui construisent les choses ne peuvent pas réellement se concentrer sur les données», a-t-elle déclaré. «Et parce que les avantages sont si évidents, il est particulièrement important de prendre du recul et de se demander quels sont les inconvénients possibles? … Comment en tirer profit tout en atténuant les risques? »
Dans son e-mail interne, Dean, responsable de l’IA de Google, a déclaré que l’une des raisons pour lesquelles le journal « n’a pas rencontré notre barre » était qu’il « ignorait trop de recherches pertinentes ». Plus précisément, il a déclaré qu’il ne mentionnait pas de travaux plus récents sur la manière de rendre les grands modèles linguistiques plus économes en énergie et d’atténuer les problèmes de biais.
Cependant, les six collaborateurs ont puisé dans un large éventail de connaissances. La liste des citations du document, avec 128 références, est particulièrement longue. «C’est le genre de travail qu’aucun individu ou même paire d’auteurs ne peut réaliser», a déclaré Bender. «Cela nécessitait vraiment cette collaboration.»
La version de l’article que nous avons vue fait également allusion à plusieurs efforts de recherche sur la réduction de la taille et des coûts de calcul des grands modèles de langage, et sur la mesure du biais intégré des modèles. Il fait cependant valoir que ces efforts n’ont pas été suffisants. «Je suis très ouvert à voir quelles autres références nous devrions inclure», a déclaré Bender.
Nicolas Le Roux, chercheur Google AI au bureau de Montréal, plus tard noté sur Twitter que le raisonnement dans l’e-mail de Dean était inhabituel. «Mes soumissions ont toujours été vérifiées pour la divulgation de matériel sensible, jamais pour la qualité de la revue de la littérature», a-t-il déclaré.