Après avoir été annoncé lors de la conférence I/O 2023 en mai, Google présente aujourd'hui Gemini 1.0, son LLM de base de nouvelle génération, et le rend disponible dans Bard, le concurrent de ChatGPT d'OpenAI. La guerre de l'intelligence artificielle passe à la vitesse supérieure.

Un modèle nativement multimodal

En tant que "modèle le plus capable et le plus général" de Google, Gemini peut "comprendre, opérer à travers et combiner" du texte, du code, de l'audio, des images et de la vidéo. Le fait d'être "nativement multimodal" permet d'améliorer la compréhension, le raisonnement et les capacités de codage.



L'approche des concurrents de Google en matière d'IA s'appuie sur la création de modèles multimodaux dans le but de "former des composants distincts pour différentes modalités, puis de les assembler". Bien qu'ils soient performants pour certaines tâches, ces modèles, selon Google, "peinent à effectuer des raisonnements plus conceptuels et plus complexes".



Pour Gemini, Google a procédé à un "pré-entraînement dès le départ sur différentes modalités" en utilisant les TPU 4 et TPU v5e. Google a également annoncé aujourd'hui que la TPU v5p était son accélérateur d'IA "le plus puissant, le plus efficace et le plus évolutif", en particulier pour les modèles avancés.



Pour démontrer ses capacités de "raisonnement sophistiqué", Google a fait une démonstration de Gemini qui digère 200 000 articles de recherche scientifique, filtre ceux qui sont pertinents et résume les données en une heure environ. Le code est un autre point fort, Gemini étant capable de "comprendre, expliquer et générer du code de haute qualité" en Python, Java, C++ et Go. Pas de Swift, snif.

Gemini 1.0 est disponible en trois tailles différentes, allant des centres de données aux téléphones :

Gemini Ultra : Le modèle le plus grand et le plus performant pour les tâches très complexes

Gemini Pro : Meilleur modèle pour la mise à l'échelle d'un large éventail de tâches

Gemini Nano : Modèle le plus efficace pour les tâches sur l'appareil

Comparatif des versions de Gemini

En termes de performances, Google a tenu à démontrer que Gemini Ultra surpassait le récent GPT-4 (pas la version Turbo à venir) dans les tests de référence basés sur le texte qui mesurent le raisonnement, les mathématiques et le code. L'entreprise insiste particulièrement sur le fait que Gemini Ultra est le "premier modèle à surpasser les experts humains sur MMLU (compréhension massive du langage multitâche)" avec 90,0 %. Ce critère "utilise une combinaison de 57 sujets tels que les mathématiques, la physique, l'histoire, le droit, la médecine et l'éthique pour tester à la fois la connaissance du monde et les capacités de résolution de problèmes", le service d'OpenAI ayant obtenu un score de 86,4 %.

Avec les benchmarks d'images que nous avons testés, Gemini Ultra a surpassé les précédents modèles de pointe, sans l'aide des systèmes de reconnaissance de caractères d'objets (OCR) qui extraient le texte des images pour un traitement ultérieur. Ces tests mettent en évidence la multimodalité native de Gemini et indiquent les premiers signes des capacités de raisonnement plus complexes de Gemini.

Si la sécurité des données vous est chère (et vous avez raison) sachez que Gemini a subi "les évaluations de sécurité les plus complètes de tous les modèles d'IA de Google à ce jour", avec de nouvelles protections en place pour tenir compte des capacités multimodales. Google lutte spécifiquement contre les préjugés et la toxicité. Reste à voir comment l'entreprise est parvenue à rester neutre, les IA ont montré qu'elles penchent toujours d'un côté.

Bard avec Gemini Pro

La nouvelle version "Bard with Gemini Pro" représente une avancée significative pour les utilisateurs, offrant des capacités améliorées en matière de raisonnement, de planification, de rédaction, ainsi que de compréhension et de résumé de contenu. Cette version adaptée de Gemini Pro surpasse GPT 3.5 dans plusieurs tests de référence, y compris MMLU et GSM8K, et est considérée comme la plus grande amélioration de Bard depuis son lancement. Bard, disponible depuis juillet 2023 en France, est maintenant le chatbot gratuit le plus apprécié selon des évaluations à l'aveugle, devançant ses concurrents principaux. Encore une fois, c'est Google qui le dit.



"Bard with Gemini Pro" est désormais disponible dans 170 pays/territoires, avec une extension prévue au Royaume-Uni et en Europe prochainement. Initialement, Gemini Pro fonctionnera avec des guides textuels, mais d'autres formats seront bientôt pris en charge.



Gemini Ultra, quant à lui, sera lancé début de l'année prochaine. Google effectue actuellement des vérifications approfondies sur la fiabilité et la sécurité de Gemini Ultra, en préparation pour son accès aux développeurs et aux entreprises. Il sera accessible via "Bard Advanced", une nouvelle offre de Google permettant un accès anticipé à ses modèles et capacités les plus avancés.



Dans les mois à venir, Gemini sera intégré dans divers services de Google, tels que Google Search, Chrome, Duet AI et Ads, avec des tests initiaux montrant une réduction significative de la latence dans l'expérience de recherche générative (SGE) de 40 %.



Bref, tout un programme. Rappelons qu'iOS 18 devrait être une grande mise à jour à base d'IA générative...