Comprendre les Esprits de l’IA

Avant de plonger dans le reste du cours, il est important de saisir quelques concepts fondamentaux concernant diverses intelligences artificielles et leur fonctionnement. Cette connaissance fondamentale fournira une compréhension plus claire du matériel qui suit.

Les différentes IA

Le paysage de l’intelligence artificielle est vaste et varié, englobant des milliers, voire des millions, de modèles distincts. Ces modèles présentent un large éventail de capacités et d’applications. Certains sont générateurs, conçus pour créer des sorties telles que des images, de la musique, du texte, voire des vidéos. En revanche, d’autres sont discriminatifs, destinés à classer ou à différencier diverses entrées, comme un classificateur d’images distinguant entre des chats et des chiens. Ce cours, cependant, se concentrera uniquement sur les IA génératives.

Parmi les IA génératives, seuls quelques-unes possèdent les capacités avancées qui les rendent particulièrement utiles pour l’ingénierie de prompts. Dans ce cours, nous nous concentrerons principalement sur ChatGPT et d’autres modèles de langage de grande taille (LLMs). Les techniques que nous explorerons sont applicables à la plupart des LLMs.

Alors que nous nous aventurons dans le domaine de la génération d’images, nous explorerons l’utilisation de la Diffusion Stable et de DALLE.

Comment fonctionnent les grands modèles de langage

Les IA textuelles génératives, telles que GPT-3 et ChatGPT, fonctionnent sur la base d’un type complexe de réseau neuronal connu sous le nom d’architecture de transformateur. Cette architecture comprend des milliards de neurones artificiels. Voici quelques points clés à comprendre sur le fonctionnement de ces IA :

Au cœur de ces IA se trouvent des fonctions mathématiques. Au lieu d’une fonction simple comme f(x)=x², pensez à elles comme à des fonctions avec des milliers de variables conduisant à des milliers de résultats possibles.

Ces IA traitent les phrases en les divisant en unités appelées tokens, qui peuvent être des mots ou des sous-mots. Par exemple, l’IA pourrait lire « Je n’aime pas » comme « Je », « n' », « aime », « pas ». Chaque token est ensuite converti en une liste de nombres pour que l’IA puisse les traiter.

Les IA génèrent du texte en prédisant le token suivant en fonction des précédents. Par exemple, après « Je n’aime pas », l’IA pourrait prédire « les pommes ». Chaque nouveau token qu’elles génèrent est influencé par les tokens précédents.

Contrairement aux humains qui lisent de gauche à droite ou de droite à gauche, ces IA considèrent tous les tokens simultanément.

Il est important de noter que des termes tels que « pensée », « cerveau » et « neurone » sont des métaphores utilisées pour décrire le fonctionnement de ces IA. En réalité, ces modèles sont des fonctions mathématiques, pas des entités biologiques. Ils ne « pensent » pas de la manière dont le font les humains ; ils calculent en fonction des données sur lesquelles ils ont été formés.

Conclusion

Comprendre le fonctionnement fondamental de l’IA est crucial alors que nous plongeons plus profondément dans ce cours. Bien qu’il soit tentant d’anthropomorphiser l’IA pour une meilleure compréhension, il est essentiel de se rappeler que ces modèles sont des fonctions mathématiques, pas des êtres pensants. Ils fonctionnent sur la base de données et d’algorithmes, pas de la cognition humaine. Alors que nous continuons à explorer et à débattre de la nature et des capacités de l’IA, cette connaissance fondamentale nous servira de guide, nous aidant à naviguer dans le monde complexe et fascinant de l’intelligence artificielle.