Le 30 novembre 2022, a été présenté un prototype de la fameuse IA (Intelligence ArtificielleChatGPT, qui a rapidement attiré l’attention par ses réponses détaillées et articulées dans de nombreux domaines de connaissances.

Il s’agit d’une technologie révolutionnaire, car elle est entraînée à apprendre ce que les humains veulent dire lorsqu’ils posent une question.

Vous aviez probablement été impressionnés par sa capacité à fournir des réponses de qualité humaine. Cela donne l’impression qu’elle pourrait un jour bouleverser la façon dont les humains font leurs recherches et produisent du contenu de façon générale.
Si vous ne l’avez pas encore essayé, vous pouvez le faire directement depuis ce lien : Essayer ChatGPT.

C’est quoi ChatGPT ?

ChatGPT est un chatbot à grand modèle de langage développé par OpenAI et basé sur GPT-3.5 (modèle de transduction de langage prédictif). Il a une capacité remarquable à interagir sous forme de dialogue conversationnel et à fournir des réponses qui peuvent sembler étonnamment humaines. Plusieurs modèles de langage permettent de prédire le mot suivant dans une série de mots.

L’apprentissage par renforcement avec rétroaction humaine (RLHF) est une couche supplémentaire de formation qui utilise le retour d’information humain pour aider ChatGPT à apprendre, à suivre des instructions et à générer des réponses satisfaisantes pour nous, les humains.

J’ai posé la question directement à l’IA ChatGPT pour qu’elle s’autodéfinît, et voici à quoi ressemble sa réponse :

Conversation avec ChatGPT

Quelle est la différence entre ChatGPT et un moteur de recherche ?

ChatGPT est un modèle linguistique créé dans le but de tenir une conversation avec un humain. Un moteur de recherche indexe les pages web sur Internet pour aider l’utilisateur à trouver les informations qu’il a demandées. ChatGPT n’a pas la capacité de rechercher des informations sur Internet et utilise plutôt les informations qu’il a appris à partir des données d’entraînement pour générer une réponse, ce qui laisse une marge d’erreur. 
Toutefois, avant de faire confiance aux réponses de ChatGPT, les utilisateurs doivent confirmer les informations auprès de sources authentiques. Vérifier l’exactitude des réponses de ChatGPT demande des efforts, car, contrairement à Google, il utilise du texte brut sans liens ni citations. De plus, alors que ChatGPT continue de progresser, Google construit également ses propres modèles de langage et utilise largement l’IA dans ses algorithmes de recherche.

Un grand modèle linguistique

ChatGPT est un large modèle de langage (LLM). Les modèles de langage de grande taille (LLM) sont entraînés avec des quantités massives de données pour prédire avec précision le mot suivant dans une phrase. Il a été découvert que l’augmentation de la quantité de données augmentait la capacité des modèles de langage à faire plus.

Selon l’université de Stanford :

  • GPT-3 possède 175 milliards de paramètres et a été formé sur 570 gigaoctets de texte. À titre de comparaison, son prédécesseur, GPT-2, était plus de 100 fois plus petit avec 1,5 milliard de paramètres.
  • Cette augmentation d’échelle change radicalement le comportement du modèle GPT-3. Elle est capable d’effectuer des tâches pour lesquelles il n’a pas été explicitement entraîné, comme la traduction de phrases de l’anglais au français, avec peu ou pas d’exemples d’entraînement.
  • Ce comportement était pratiquement absent dans GPT-2. En outre, pour certaines tâches, GPT-3 surpasse les modèles qui ont été explicitement entraînés à résoudre ces tâches, alors que pour d’autres tâches, il n’est pas à la hauteur.

Les LLM prédisent le prochain mot d’une série de mots dans une phrase et les phrases suivantes, un peu comme la complétion automatique, mais à une échelle époustouflante. Cette capacité leur permet d’écrire des paragraphes et des pages entières de contenu.

Mais les LLM sont limités dans la mesure où ils ne comprennent pas toujours ce que veut un humain de façon très précise. C’est pour cette raison que ChatGPT améliore l’état de l’art, avec l’apprentissage par renforcement avec rétroaction humaine (RLHF) mentionné plus haut.

Comment ChatGPT a été entrainé ?

GPT-3.5 a été entraîné sur des quantités massives de données sur le code et les informations provenant d’Internet, y compris des sources telles que les discussions Reddit, pour aider ChatGPT à apprendre le dialogue et à atteindre un style de réponse humain.

ChatGPT a également été entraîné en utilisant la rétroaction humaine (une technique appelée apprentissage par renforcement avec rétroaction humaine) afin que l’IA apprenne ce que les humains attendent lorsqu’ils posent une question. L’entraînement du LLM de cette manière est révolutionnaire, car il va au-delà du simple entraînement du LLM à prédire le mot suivant.

Un document de recherche publié en mars 2022 et intitulé « Training Language Models to Follow Instructions with Human Feedback » explique pourquoi cette approche est révolutionnaire, en voici un extrait traduit :

 « Ce travail est motivé par notre objectif d’augmenter l’impact positif des grands modèles de langage en les entraînant à faire ce qu’un ensemble donné d’humains veut qu’ils fassent.

Par défaut, les modèles de langage optimisent l’objectif de prédiction du mot suivant, qui n’est qu’une approximation de ce que nous voulons que ces modèles fassent.

Nos résultats indiquent que nos techniques sont prometteuses pour rendre les modèles de langage plus utiles, plus véridiques et plus inoffensifs.

Le fait de rendre les modèles de langue plus grands ne les rend pas intrinsèquement meilleurs pour suivre l’intention de l’utilisateur.

Par exemple, les modèles de langage de grande taille peuvent générer des résultats qui sont mensongers, toxiques ou simplement inutiles pour l’utilisateur. »

Training Language Models to Follow Instructions with Human Feedback

Les ingénieurs qui ont construit ChatGPT ont engagé des contractants (appelés étiqueteurs) pour évaluer les résultats des deux systèmes, le GPT-3 et le nouveau InstructGPT (un « modèle frère » du ChatGPT).

Ce qui distingue ChatGPT d’un simple chatbot, c’est qu’il a été spécifiquement entrainé pour comprendre l’intention humaine dans une question et fournir des réponses utiles, véridiques et inoffensives.

Grâce à cet entrainement, ChatGPT peut contester certaines questions et écarter les parties de la question qui n’ont pas de sens.

Les chercheurs ont remarqué que les paramètres utilisés pour évaluer les résultats des IA de traitement du langage naturel, donnaient des chatbots qui obtenaient de bons résultats, mais qui ne correspondaient pas aux attentes des humains.

La solution qu’ils ont conçue consistait donc à créer une IA capable de produire des réponses optimisées en fonction des préférences des humains.

Pour ce faire, ils ont entraîné l’IA en utilisant des ensembles de données de comparaisons humaines entre différentes réponses, afin que le chatbot devienne plus apte à prédire ce que les humains jugent être des réponses satisfaisantes.

Quelles sont les limites de ChatGPT ?

Limites liées aux réponses toxiques

ChatGPT est spécifiquement programmé pour ne pas fournir de réponses toxiques ou dangereuses. Il évitera donc de répondre à ce type de questions.

Les réponses ne sont pas toujours correctes

Une autre limite est que, parce qu’il est entraîné à fournir des réponses qui semblent correctes aux humains, les réponses peuvent tromper les humains en leur faisant croire que le résultat est correct.

De nombreux utilisateurs ont découvert que ChatGPT peut fournir des réponses incorrectes, y compris certaines très incorrectes.

Les modérateurs du site de questions-réponses sur le codage Stack Overflow ont peut-être découvert une conséquence involontaire des réponses qui paraissent correctes aux yeux des humains.

Stack Overflow a été inondé de réponses d’utilisateurs générées par ChatGPT qui paraissaient correctes, mais un grand nombre d’entre elles étaient des réponses erronées.

Les milliers de réponses ont submergé l’équipe de modérateurs bénévoles, ce qui a incité les administrateurs à interdire temporairement à tout utilisateur de poster des réponses générées par ChatGPT. Vous trouverez le texte associé à cette interdiction via le lien suivant : Temporary policy: ChatGPT is banned.

Qu’est ce que vous pouvez faire avec ChatGPT ?

ChatGPT peut écrire du code, des poèmes, des chansons et même des nouvelles dans le style d’un auteur spécifique.
La capacité à suivre des instructions fait passer ChatGPT d’une source d’informations à un outil auquel on peut demander d’accomplir une tâche. Cela le rend utile pour rédiger du texte sur pratiquement n’importe quel sujet.
ChatGPT peut servir d’outil pour générer des plans d’articles ou même de romans entiers.
Il fournit une réponse à quasiment toutes les tâches auxquelles il est possible de répondre par écrit.

Conclusion

En dépit de ses limites, ChatGPT démontre qu’il convient à des cas d’utilisation de large envergure. Les professionnels sont impatients d’exploiter cet énorme potentiel à des fins commerciales. C’est donc le moment idéal pour les passionnés de s’informer sur les dernières tendances et les opportunités intéressantes dans ce domaine.

Leave a comment

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *