Comprendre les différences entre la vision biologique et la vision par ordinateur

Rejoignez Transform 2021 du 12 au 16 juillet. Inscrivez-vous pour r l’événement IA de l’année.

Depuis les premières années de l’intelligence artificielle, les scientifiques rêvent de créer des ordinateurs capables de «voir» le monde. Comme la vision joue un rôle clé dans de nombreuses choses que nous faisons tous les jours, déchiffrer le code de vision par ordinateur semblait être l’une des étapes majeures du développement de l’intelligence artificielle générale.

Mais comme de nombreux autres objectifs de l’IA, la vision par ordinateur s’est avérée plus facile à dire qu’à faire. En 1966, des scientifiques du MIT ont lancé «Le projet Summer Vision», Un effort de deux mois pour créer un système informatique capable d’identifier les objets et les zones d’arrière-plan des images. Mais il a fallu bien plus qu’une pause estivale pour atteindre ces objectifs. En fait, ce n’est qu’au début des années 2010 que les classificateurs d’images et les détecteurs d’objets étaient suffisamment flexibles et fiables pour être utilisés dans les applications grand public.

Au cours des dernières décennies, les progrès apprentissage automatique et neurosciences ont contribué à faire de grands progrès dans le domaine de la vision par ordinateur. Mais nous avons encore un long chemin à parcourir avant de pouvoir construire des systèmes d’IA qui voient le monde comme nous.

Vision biologique et par ordinateur, un livre du professeur Gabriel Kreiman de l’Université de médecine de Harvard, fournit un compte rendu accessible de la façon dont les humains et les animaux traitent les données visuelles et à quel point nous en sommes venus à reproduire ces fonctions dans les ordinateurs.

Le livre de Kreiman aide à comprendre les différences entre la vision biologique et la vision par ordinateur. Le livre détaille comment des milliards d’années d’évolution nous ont équipés d’un système de traitement visuel complexe et comment son étude a contribué à inspirer de meilleurs algorithmes de vision par ordinateur. Kreiman discute également de ce qui sépare les systèmes de vision par ordinateur contemporains de leur homologue biologique.

Bien que je recommande une lecture complète de Vision biologique et par ordinateur à tous ceux qui s’intéressent au domaine, j’ai essayé ici (avec l’aide de Gabriel lui-même) de présenter certains de mes principaux enseignements à tirer du livre.

Différences matérielles

Dans l’introduction à Vision biologique et par ordinateur, Écrit Kreiman, «Je suis particulièrement enthousiasmé par la connexion de circuits biologiques et informatiques. La vision biologique est le produit de millions d’années d’évolution. Il n’y a aucune raison de réinventer la roue lors du développement de modèles de calcul. Nous pouvons apprendre de la façon dont la biologie résout les problèmes de vision et utiliser les solutions comme source d’inspiration pour créer de meilleurs algorithmes. »

Et en effet, l’étude du cortex visuel a été une grande source d’inspiration pour vision par ordinateur et IA. Mais avant de pouvoir numériser la vision, les scientifiques ont dû surmonter l’énorme fossé matériel entre la vision biologique et la vision par ordinateur. La vision biologique fonctionne sur un réseau interconnecté de cellules corticales et de neurones organiques. La vision par ordinateur, quant à elle, fonctionne sur des puces électroniques composées de transistors.

Par conséquent, une théorie de la vision doit être définie à un niveau qui peut être implémenté dans les ordinateurs d’une manière comparable aux êtres vivants. Kreiman appelle cela la «résolution Boucle d’or», un niveau d’abstraction qui n’est ni trop détaillé ni trop simplifié.

Par exemple, les premiers efforts en vision par ordinateur ont tenté d’aborder la vision par ordinateur à un niveau très abstrait, d’une manière qui ignorait la façon dont les cerveaux humains et animaux reconnaissent les modèles visuels. Ces approches se sont révélées très fragiles et inefficaces. D’un autre côté, étudier et simuler les cerveaux au niveau moléculaire se révélerait inefficace en termes de calcul.

« Je ne suis pas un grand fan de ce que j’appelle » copier la biologie « », a déclaré Kreiman TechTalks. «Il y a de nombreux aspects de la biologie qui peuvent et doivent être résumés. Nous n’avons probablement pas besoin d’unités avec 20 000 protéines et un cytoplasme et des géométries dendritiques complexes. Ce serait trop de détails biologiques. D’un autre côté, nous ne pouvons pas nous contenter d’étudier le comportement – ce n’est pas assez détaillé.

Dans Vision biologique et par ordinateur, Kreiman définit l’échelle Goldilocks des circuits néocorticaux comme des activités neuronales par milliseconde. Les progrès des neurosciences et de la technologie médicale ont permis d’étudier les activités de neurones individuels avec une granularité de la milliseconde.

Et les résultats de ces études ont aidé à développer différents types de réseaux de neurones artificiels, Des algorithmes d’IA qui simulent vaguement le fonctionnement des zones corticales du cerveau des mammifères. Ces dernières années, les réseaux de neurones se sont avérés être l’algorithme le plus efficace pour la reconnaissance de formes dans les données visuelles et sont devenus le composant clé de nombreux applications de vision par ordinateur.

Différences d’architecture

Ci-dessus: Vision biologique et par ordinateur, par Gabriel Kreiman.

Les dernières décennies ont vu un grand nombre de travaux innovants dans le domaine de l’apprentissage en profondeur, qui a aidé les ordinateurs à imiter certaines des fonctions de la vision biologique. Couches convolutives, inspirées des études réalisées sur le cortex visuel animal, sont très efficaces pour trouver des modèles dans les données visuelles. Le regroupement des couches permet de généraliser la sortie d’une couche convolutive et de la rendre moins sensible au déplacement des motifs visuels. Empilés les uns sur les autres, les blocs de couches convolutives et de mise en commun peuvent aller de la recherche de petits motifs (coins, bords, etc.) à des objets complexes (visages, chaises, voitures, etc.).

Mais il existe toujours un décalage entre l’architecture de haut niveau des réseaux de neurones artificiels et ce que nous savons sur le cortex visuel des mammifères.

« Le mot » couches « est, malheureusement, un peu ambigu », a déclaré Kreiman. «En informatique, les gens utilisent des couches pour désigner les différentes étapes du traitement (et une couche est essentiellement analogue à une zone cérébrale). En biologie, chaque région cérébrale contient six couches corticales (et subdivisions). Mon intuition est que la structure à six couches (dont la connectivité est parfois appelée microcircuit canonique) est assez cruciale. On ne sait pas quels aspects de ce circuit devrions-nous inclure dans les réseaux de neurones. Certains peuvent soutenir que des aspects du motif à six couches sont déjà incorporés (par exemple, les opérations de normalisation). Mais il manque probablement une énorme richesse. »

Aussi, comme le souligne Kreiman dans Vision biologique et par ordinateur, les informations dans le cerveau se déplacent dans plusieurs directions. Les signaux lumineux se déplacent de la rétine vers le cortex temporal inférieur vers les couches V1, V2 et d’autres couches du cortex visuel. Mais chaque couche fournit également des informations à ses prédécesseurs. Et dans chaque couche, les neurones interagissent et se transmettent des informations. Toutes ces interactions et interconnexions aident le cerveau à combler les lacunes de l’entrée visuelle et à faire des inférences lorsqu’il a des informations incomplètes.

En revanche, dans les réseaux de neurones artificiels, les données se déplacent généralement dans une seule direction. Les réseaux de neurones convolutifs sont des «réseaux à réaction», ce qui signifie que les informations ne vont que de la couche d’entrée aux couches supérieures et de sortie.

Il existe un mécanisme de rétroaction appelé «rétropropagation», qui aide à corriger les erreurs et à régler les paramètres des réseaux de neurones. Mais la rétropropagation est coûteuse en calcul et n’est utilisée que lors de la formation des réseaux de neurones. Et il n’est pas clair si la rétropropagation correspond directement aux mécanismes de rétroaction des couches corticales.

D’autre part, réseaux de neurones récurrents, qui combinent la sortie des couches supérieures dans l’entrée de leurs couches précédentes, ont encore une utilisation limitée en vision par ordinateur.

Ci-dessus: dans le cortex visuel (à droite), les informations se déplacent dans plusieurs directions. Dans les réseaux de neurones (à gauche), les informations se déplacent dans une direction.

Dans notre conversation, Kreiman a suggéré que le flux d’informations latéral et descendant peut être crucial pour amener les réseaux de neurones artificiels à leurs homologues biologiques.

«Les connexions horizontales (c’est-à-dire les connexions pour les unités au sein d’une couche) peuvent être critiques pour certains calculs tels que l’achèvement de motifs», a-t-il déclaré. « Les connexions descendantes (c’est-à-dire les connexions des unités d’une couche aux unités d’une couche inférieure) sont probablement essentielles pour faire des prédictions, pour attirer l’attention, pour incorporer des informations contextuelles, etc. »

Il a également déclaré que les neurones ont «des propriétés d’intégration temporelles complexes qui manquent dans les réseaux actuels».

Différences d’objectifs

Evolution a réussi à développer une architecture neuronale capable d’accomplir de nombreuses tâches. Plusieurs études ont montré que notre système visuel peut ajuster dynamiquement ses sensibilités au commun. La création de systèmes de vision par ordinateur dotés de ce type de flexibilité reste un un défi majeur, pourtant.

Les systèmes de vision par ordinateur actuels sont conçus pour accomplir une seule tâche. Nous avons des réseaux de neurones qui peuvent classer des objets, localiser des objets, segmenter des images en différents objets, décrire des images, générer des images, etc. Mais chaque réseau de neurones peut accomplir une seule tâche à lui seul.

Ci-dessus: Gabriel Kreiman, professeur à l’Université de médecine de Harvard. Auteur de «Biological and Computer Vision».

«Une question centrale est de comprendre les« routines visuelles », un terme inventé par Shimon Ullman; comment pouvons-nous acheminer de manière flexible les informations visuelles en fonction de la tâche? » Dit Kreiman. «Vous pouvez essentiellement répondre à un nombre infini de questions sur une image. Vous ne vous contentez pas d’étiqueter les objets, vous pouvez compter les objets, vous pouvez décrire leurs couleurs, leurs interactions, leurs tailles, etc. Nous pouvons construire des réseaux pour faire chacune de ces choses, mais nous n’avons pas de réseaux qui peuvent faire tout cela les choses simultanément. Il existe des approches intéressantes à ce sujet via des systèmes de questions / réponses, mais ces algorithmes, aussi passionnants soient-ils, restent plutôt primitifs, surtout en comparaison avec la performance humaine.

Différences d’intégration

Chez les humains et les animaux, la vision est étroitement liée aux sens de l’odorat, du toucher et de l’ouïe. Les cortex visuel, auditif, somatosensoriel et olfactif interagissent et captent des signaux les uns des autres pour ajuster leurs inférences du monde. Dans les systèmes d’IA, en revanche, chacun de ces éléments existe séparément.

Avons-nous besoin de ce type d’intégration pour créer de meilleurs systèmes de vision par ordinateur?

«En tant que scientifiques, nous aimons souvent diviser les problèmes pour les conquérir», a déclaré Kreiman. «Personnellement, je pense que c’est une manière raisonnable de commencer. On voit très bien sans odeur ni audition. Considérez un film Chaplin (et supprimez toute la musique et le texte minimaux). Vous pouvez comprendre un parcelle. Si une personne naît sourde, elle voit toujours très bien. Bien sûr, il existe de nombreux exemples d’interactions intéressantes entre les modalités, mais je pense surtout que nous allons faire beaucoup de progrès avec cette simplification. »

Cependant, une question plus compliquée est l’intégration de la vision avec des zones plus complexes du cerveau. Chez l’homme, la vision est profondément intégrée à d’autres fonctions cérébrales telles que la logique, le raisonnement, le langage et bon sens connaissances.

« Certains (la plupart?) Problèmes visuels peuvent » coûter « plus de temps et nécessiter l’intégration d’entrées visuelles avec les connaissances existantes sur le monde », a déclaré Kreiman.

Il a cité l’image suivante de l’ancien président américain Barack Obama à titre d’exemple.

Ci-dessus: Pour comprendre ce qui se passe, cette image nécessite une connaissance du monde, une connaissance sociale et du bon sens.

Pour comprendre ce qui se passe sur cette image, un agent d’IA aurait besoin de savoir ce que fait la personne sur l’échelle, ce que fait Obama, qui rit et pourquoi ils rient, etc. Répondre à ces questions nécessite une mine d’informations. , y compris la connaissance du monde (la balance mesure le poids), la connaissance de la physique (un pied sur une balance exerce une force), la connaissance psychologique (beaucoup de gens sont conscients de leur poids et seraient surpris si leur poids est bien au-dessus de l’habituel), social compréhension (certaines personnes sont dans la blague, d’autres non).

«Aucune architecture actuelle ne peut faire cela. Tout cela nécessitera de la dynamique (nous n’apprécions pas tout cela immédiatement et utilisons généralement de nombreuses fixations pour comprendre l’image) et l’intégration de signaux descendants », a déclaré Kreiman.

Des domaines tels que la langue et le bon sens sont en eux-mêmes de grands défis pour la communauté de l’IA. Mais il reste à voir s’ils peuvent être résolus séparément et intégrés avec la vision, ou l’intégration elle-même est la clé pour les résoudre tous.

«À un moment donné, nous devons entrer dans tous ces autres aspects de la cognition, et il est difficile d’imaginer comment intégrer la cognition sans aucune référence au langage et à la logique», a déclaré Kreiman. «Je m’attends à ce qu’il y ait des efforts passionnants majeurs dans les années à venir pour intégrer davantage de langage et de logique dans les modèles de vision (et inversement incorporer également la vision dans les modèles de langage).»

Ben Dickson est ingénieur logiciel et fondateur de TechTalks. Il écrit sur la technologie, les affaires et la politique.

VentureBeat

La mission de VentureBeat est d’être une place de la ville numérique pour les décideurs techniques afin d’acquérir des connaissances sur la technologie transformatrice et d’effectuer des transactions.

Notre site fournit des informations essentielles sur les technologies de données et les stratégies pour vous guider dans la conduite de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder:

des informations à jour sur les sujets qui vous intéressent
nos newsletters
contenu de leader d’opinion fermé et accès à prix réduit à nos événements prisés, tels que Transformer 2021: Apprendre encore plus
fonctionnalités de mise en réseau, et plus

Devenir membre

Actus Généralistes

actu du web