ChatGPT : Qu'est-ce que c'est et comment ça marche !
- Alban Martin
- Il y a 1 an (Màj il y a 1 an)
- 💬 9 coms
- 🔈 Écouter
La société OpenAI, notamment fondée par Elon Musk (mais qui est parti depuis en désaccord sur l'éthique à suivre) et deux compères avec qui il avait créée PayPal) a introduit une IA de type "question/réponse" appelée ChatGPT qui répond à des questions complexes par le simple fait d'une conversation "normale".
C'est une technologie révolutionnaire parce qu'elle est formée via du machine learning pour apprendre ce que les humains veulent dire lorsqu'ils posent une question.
Ceux qui l'ont testé ont été impressionnés par sa capacité à fournir des réponses de grande qualité, ce qui pourrait facilement bouleverser la relation homme-machine. Et cela fait également très peur...
Qu'est-ce que ChatGPT ?
Concrètement, ChatGPT est un chatbot de modèle linguistique développé par OpenAI basé sur GPT-3.5. Generative Pre-trained Transformer 3.5 (GPT-3.5) est un modèle de langage autorégressif qui utilise l'apprentissage profond pour produire un texte de type humain. Il a une capacité remarquable à interagir sous forme de dialogue conversationnel et à fournir des réponses qui peuvent sembler étonnamment humaines.
La quantité de modèles linguistiques intégrés est utilisée pour prédire le mot suivant dans une série de mots.
L'apprentissage par renforcement avec la rétroaction humaine (RLHF) est une couche supplémentaire de formation qui utilise la rétroaction humaine pour aider ChatGPT à apprendre la capacité de suivre les instructions et de générer des réponses satisfaisantes pour les humains.
ChatGPT peut écrire un article de presse, du code, des poèmes, des chansons et même des nouvelles dans le style d'un auteur spécifique.
Qui a construit ChatGPT ?
ChatGPT a été créé par la société d'intelligence artificielle OpenAI, basée à San Francisco. OpenAI Inc. est la société mère à but non lucratif de l'OpenAI LP, qui elle, est à but lucratif.
OpenAI est célèbre pour son DALL·E bien connu, un modèle d'apprentissage profond qui génère des images à partir d'instructions textuelles appelées invites, comme l'app AI Photo par exemple.
Le PDG est Sam Altman, qui était auparavant président de Y Combinator. L'autre patron n'est autre que l'inévitable Elon Musk, dirigeant de Twitter, SpaceX, Tesla, etc.
Microsoft est un partenaire et un investisseur d'un montant de 1 milliard de dollars. Ils ont développé conjointement la plate-forme Azure AI et ont finalement passé un accord pour avoir accès au code et intégrer la technologie dans Office et ses applications (mise à jour de mars 2023).
ChatGPT is scary good. We are not far from dangerously strong AI.
— Elon Musk (@elonmusk) December 3, 2022
Grands modèles linguistiques
ChatGPT est un modèle linguistique à grande échelle (LLM). Les grands modèles linguistiques sont formés avec d'énormes quantités de données pour prédire avec précision quel mot vient ensuite dans une phrase.
Il a été démontré que l'augmentation de la quantité de données favorisait la capacité des modèles linguistiques à être plus précis.
Selon l'Université de Stanford :
GPT-3 a 175 milliards de paramètres et a été formé sur 570 gigaoctets de texte. À titre de comparaison, son prédécesseur, GPT-2, était plus de 100 fois plus petit avec 1,5 milliard de paramètres.
Cette augmentation de l'échelle change radicalement le comportement du modèle - GPT-3 est capable d'effectuer des tâches sur lesquelles il n'a pas été explicitement formé, comme traduire des phrases de l'anglais vers le français, avec peu ou pas d'exemples de formation.
Ce comportement était pour la plupart absent dans GPT-2. En outre, pour certaines tâches, GPT-3 surpasse les modèles qui ont été explicitement formés pour résoudre ces tâches, bien que dans d'autres tâches, il ne soit pas à la hauteur.
Les LLM prédisent le mot suivant dans une phrase et les phrases suivantes - un peu comme la saisie semi-automatique, mais à une échelle hallucinante. Cette capacité leur permet d'écrire des paragraphes et des pages entières de contenu, on peut même lui exposer le cahier des charges d'un site Internet et lui demander de le coder une application dans un certain langage.
This is impressive 🤯 #laravel #php #ChatGPT pic.twitter.com/mFc98JLCsQ
— Tiago⚡Rodrigues (@Tiago_Ferat) December 27, 2022
Mais les LLM sont limités en ce sens qu'ils ne comprennent pas toujours exactement ce qu'un humain veut dire ou sous-entend.
Et c'est là que ChatGPT améliore l'état de l'art, avec la formation Reinforcement Learning with Human Feedback (RLHF) susmentionnée. Et des algorithmes certainement incroyablement complexes qui lui donnent une précision diabolique.
Comment ChatGPT a-t-il été formé ?
GPT-3.5 a été formé sur d'énormes quantités de données sur le code et les informations provenant d'Internet, y compris des sources comme les discussions sur Reddit, pour aider ChatGPT à apprendre le dialogue et à atteindre un style de réponse humain.
ChatGPT a également été formé à l'aide de la rétroaction humaine (une technique appelée RLHF) afin que l'IA apprenne ce à quoi les humains s'attendaient lorsqu'ils posent une question. La formation du LLM de cette manière est révolutionnaire car elle va au-delà de la simple formation du LLM pour prédire le mot suivant.
Un document de recherche de mars 2022 intitulé Training Language Models to Follow Instructions with Human Feedback explique pourquoi il s'agit d'une approche révolutionnaire :
Ce travail est motivé par notre objectif d'augmenter l'impact positif des grands modèles linguistiques en les formant à faire ce qu'un ensemble donné d'humains veut qu'ils fassent.
Par défaut, les modèles de langage optimisent l'objectif de prédiction de mot suivant, qui n'est qu'une procuration pour ce que nous voulons que ces modèles fassent.
Nos résultats indiquent que nos techniques sont prometteuses pour rendre les modèles linguistiques plus utiles, véridiques et inoffensifs.
Agrandir les modèles linguistiques ne les rend pas intrinsèquement meilleurs pour suivre l'intention d'un utilisateur.
Par exemple, les grands modèles de langage peuvent générer des sorties qui sont fausses, toxiques ou tout simplement pas utiles à l'utilisateur.
En d'autres termes, ces modèles ne sont pas alignés sur leurs utilisateurs.
Les ingénieurs qui ont construit ChatGPT ont embauché des personnes (appelés étiqueteurs) pour évaluer les sorties des deux systèmes, GPT-3 et le nouveau InstructGPT (un « modèle frère » de ChatGPT).
Sur la base des cotes, les chercheurs sont arrivés aux conclusions suivantes :
Les étiqueteurs préfèrent considérablement les sorties InstructGPT aux sorties de GPT-3.
Les modèles InstructGPT montrent des améliorations de la véracité par rapport à GPT-3.
InstructGPT montre de petites améliorations de la toxicité par rapport au GPT-3, mais pas de biais.
Le document de recherche conclut que les résultats pour InstructGPT étaient positifs. Néanmoins, il a également noté qu'il y avait encore du chemin à parcourir.
Dans l'ensemble, nos résultats indiquent que l'ajustement de grands modèles linguistiques à l'aide de préférences humaines améliore considérablement leur comportement sur un large éventail de tâches, bien qu'il reste beaucoup de travail à faire pour améliorer leur sécurité et leur fiabilité.
Ce qui distingue ChatGPT d'un simple chatbot, c'est qu'il a été spécifiquement formé pour comprendre l'intention humaine d'une question et fournir des réponses utiles, véridiques et non violentes.
Ainsi, ChatGPT peut remettre en question certaines demandes et rejeter tout ou partie de la question qui n'a pas de sens.
Les chercheurs ont remarqué que les mesures utilisées pour évaluer les résultats de l'IA de traitement du langage naturel ont donné des modèles qui ont obtenu de bons résultats sur les mesures, mais qui ne correspondaient pas à ce que les hommes attendaient.
Voici comment les chercheurs ont expliqué le problème :
De nombreuses applications d'apprentissage automatique optimisent des mesures simples qui ne sont que des proxys approximatifs pour ce que le concepteur a l'intention. Cela peut entraîner des problèmes, tels que les recommandations de YouTube faisant la promotion de l'appât de clics.
Pour rectifier le tir, ils ont formé l'IA à l'aide d'ensembles de données de comparaisons humaines entre différentes réponses afin que la machine devienne meilleure à prédire ce que les humains jugeaient comme des réponses satisfaisantes.
La formation a été effectuée en résumant les messages Reddit et a également été testée sur le résumé d'articles de presse, un résultat que l'on peut lire dans Learning to Summarize from Human Feedback.
Dans ce travail, nous montrons qu'il est possible d'améliorer considérablement la qualité du résumé en formant un modèle à optimiser pour les préférences humaines.
Nous recueillons un grand ensemble de données de haute qualité de comparaisons humaines entre les résumés, formons un modèle pour prédire le résumé préféré par l'homme et utilisons ce modèle comme fonction de récompense pour affiner une politique de résumer à l'aide de l'apprentissage par renforcement.
Quelles sont les limites de ChatGPT ?
Limitations de la réponse offensante
ChatGPT est spécifiquement programmé pour ne pas fournir de réponses toxiques ou nocives. Il évitera donc de répondre à tout ce qui peut être offensant. D'après nos tests, il tend également à éviter tout penchant politique.
La qualité de la réponse dépend de la question
Une limitation importante de ChatGPT est que la qualité de la sortie dépend de la qualité de l'entrée. En d'autres termes, les questions précises génèrent de meilleures réponses. C'est un peu comme en "vrai", si une question n'est pas claire, il est difficile d'y répondre avec exactitude.
Les réponses ne sont pas toujours correctes
Autre limitation, qui est inhérente à ce genre de projet toujours en phase de développement, est que ChatGPT peut se tromper. De nombreux utilisateurs ont découvert que le chatbot d'OpenAI peut fournir des réponses erronées, y compris certaines qui sont extrêmement incorrectes.
Les modérateurs du site de questions-réponses pour développeurs, Stack Overflow, ont peut-être découvert une conséquence involontaire de réponses qui semblent justes pour les humains.
Stack Overflow a été inondé de réponses des utilisateurs générées par ChatGPT qui semblaient correctes, mais beaucoup étaient de mauvaises réponses.
Les milliers de réponses ont submergé l'équipe de modérateurs bénévoles, ce qui a incité les administrateurs à promulguer une interdiction contre tous les utilisateurs qui publient des réponses générées par ChatGPT.
Le flot de réponses de ChatGPT a donné lieu à un message intitulé : Politique temporaire : ChatGPT est interdit :
Il s'agit d'une politique temporaire destinée à ralentir l'afflux de réponses et d'autres contenus créés avec ChatGPT.
...Le principal problème est que bien que les réponses que ChatGPT produit aient un taux élevé d'erreurs, elles « ont généralement l'air » qu'elles « pourraient » être bonnes...
Depuis cette mauvaise expérience, OpenAI met en garde les utilisateurs sur ce défaut de la nouvelle technologie.
ChatGPT écrit parfois des réponses plausibles mais incorrectes ou absurdes.
Résoudre ce problème est difficile, car :
(1) pendant la formation RL, il n'y a actuellement aucune source de vérité ;
(2) former le modèle à être plus prudent l'amène à refuser les questions auxquelles il peut répondre correctement ; et
(3) la formation supervisée induit le modèle en erreur parce que la réponse idéale dépend de ce que le modèle sait, plutôt que de ce que le démonstrateur humain sait.
ChatGPT est-il gratuit ?
L'utilisation de ChatGPT est actuellement gratuite pendant la période de "research preview", autrement dit la phase de recherche.
Le chatbot est actuellement ouvert aux utilisateurs pour qu'ils puissent essayer et fournir des commentaires sur les réponses afin que l'IA puisse mieux répondre aux questions et apprendre de ses erreurs.
Le blog officiel indique qu'OpenAI est impatient de recevoir des commentaires sur les erreurs :
Bien que nous ayons fait des efforts pour que le modèle refuse les demandes inappropriées, il répondra parfois à des instructions néfastes ou présentera un comportement biaisé.
Nous utilisons l'API de modération pour avertir ou bloquer certains types de contenu dangereux, mais nous nous attendons à ce qu'elle ait des faux négatifs et positifs pour l'instant.
Nous sommes impatients de recueillir les commentaires des utilisateurs pour faciliter notre travail continu visant à améliorer ce système.
Si cela vous intéresse, sachez que vous pouvez gagner 500 $ en crédits ChatGPT :
Les utilisateurs sont encouragés à fournir des commentaires sur les sorties de modèles problématiques via l'interface utilisateur, ainsi que sur les faux positifs/négatifs du filtre de contenu externe qui fait également partie de l'interface.
Nous sommes particulièrement intéressés par les commentaires concernant les résultats néfastes qui pourraient se produire dans des conditions non contradictoires du monde réel, ainsi que par les commentaires qui nous aident à découvrir et à comprendre les nouveaux risques et les mesures d'atténuation possibles.
Vous pouvez choisir de participer au Concours de commentaires ChatGPT3 pour courir la chance de gagner jusqu'à 500 $ en crédits API.
Les inscriptions peuvent être soumises via le formulaire de rétroaction qui est lié dans l'interface ChatGPT.
Le concours se termine demain 31 décembre 2022 à 23 h 59. PST. Après cela, nous devrions découvrir le prix ou les prix de l'API de ChatGPT.
Google est-il au niveau ?
Le géant de la recherche, Google, a déjà créé un chatbot avancée qui s'appelle LaMDA. La performance du chatbot de Google était si proche d'une conversation humaine qu'un ingénieur de Google a affirmé que LaMDA était sensible (aux émotions). Pour se démarquer, LaMDA a été entraîné, non pas par du texte, par du dialogue vocal.
Certains voient en ces chatbot le futur de la recherche sur Internet. Si la technologie a encore un long chemin à parcourir, il est possible d'envisager une recherche hybride et un avenir avec ChatGPT.
Conclusion
Vous l'aurez compris, ChatGPT est une petite révolution qui n'a pas fini de faire parler d'elle. Il faut savoir que plus d'un million d'utilisateurs se sont inscrits pour utiliser ChatGPT au cours des cinq premiers jours depuis son ouverture au public, ce qui montre l'engouement autour de ce projet pharaonique dans la communauté des développeurs et autres ingénieurs.
Time it took to reach 1 million users:
— Kate (@whoiskatrin) December 7, 2022
Netflix - 3.5 years
Facebook - 10 months
Spotify - 5 months
Instagram - 2.5 months
ChatGPT - 5 days
Rendez-vous chat.openai.com pour le tester !