Google frappe fort avec Gemini 2.0, son IA "capable de tout faire"

Nadim Lefebvre
Il y a 8 mois
💬 Réagir
🔈 Écouter

Google

Google franchit une étape majeure dans le développement de l'intelligence artificielle avec le lancement de Gemini 2.0, successeur de la version 1.5 lancée il y a à peine 10 mois. Cette nouvelle version marque l'entrée dans ce que Google appelle "l'ère des agents", où l'IA devient capable d'agir de manière plus autonome et d'accomplir des tâches complexes pour les utilisateurs.

Une IA plus puissante et polyvalente

La version 2.0 Flash, première déclinaison de cette nouvelle génération, apporte des améliorations considérables en termes de performances. Selon Google, elle est deux fois plus rapide que le modèle Pro 1.5 tout en maintenant un niveau de qualité équivalent. Cette version intègre désormais nativement la génération d'images et d'audio, en plus du texte, ce qui en fait un modèle véritablement multimodal.

Les capacités de synthèse vocale de Gemini 2.0 sont particulièrement impressionnantes, avec huit voix différentes optimisées pour divers accents et langues. Le modèle peut également ajuster son débit de parole sur demande et s'adapter aux interruptions naturelles dans une conversation, rendant les interactions plus fluides et naturelles à la manière de GPT Voice.

Des agents IA révolutionnaires

Google présente plusieurs projets novateurs qui démontrent les capacités de Gemini 2.0 dans le domaine des agents IA. Project Mariner, une extension Chrome expérimentale, peut naviguer et accomplir des tâches complexes directement dans le navigateur web, avec un taux de réussite impressionnant de 83,5% sur le benchmark WebVoyager. Project Astra, quant à lui, bénéficie d'améliorations majeures comme une meilleure compréhension multilingue, l'utilisation native de Google Search, Lens et Maps, ainsi qu'une mémoire étendue jusqu'à 10 minutes pendant les sessions.

L'entreprise introduit également Jules, un agent spécialisé capable de s'intégrer directement dans les workflows GitHub pour assister les développeurs. Dans le domaine du gaming, Google collabore avec des développeurs comme Supercell pour créer des agents capables d'analyser en temps réel l'action à l'écran et de fournir des conseils pertinents aux joueurs.

Une intégration progressive et sécurisée

Google adopte une approche prudente et méthodique pour le déploiement de Gemini 2.0. La version Flash est d'ores et déjà disponible via l'API Gemini et les plateformes de développement AI Studio et Vertex AI, mais certaines fonctionnalités avancées comme la génération d'images et d'audio sont temporairement réservées aux partenaires privilégiés jusqu'en janvier 2025.

Le géant de la technologie accorde une importance particulière à la sécurité et à la responsabilité dans le développement de ces nouvelles capacités. Un comité dédié à la responsabilité et à la sécurité (RSC) travaille activement à l'identification et à la compréhension des risques potentiels. Des mesures spécifiques ont été mises en place, comme la protection contre le partage involontaire d'informations sensibles dans Project Astra, ou encore des contrôles de sécurité pour Project Mariner afin de prévenir les tentatives de fraude et de hameçonnage.

Pour rappel, Gemini est pressentie pour être intégrée à Apple Intelligence en plus de ChatGPT. Si le partenariat avec Apple voit le jour et si les benchmarks de Gemini 2.0, ce nouveau modèle pourrait donner un sacré coup d'accélérateur à l'utilisation de l'intelligence artificielle sur iPhone et Mac. A moins que Google ne se réserve l'exclusivité sur Android...

Source

Télécharger l'app gratuite Google Gemini