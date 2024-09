Les chercheurs d'Apple sont très très actifs du côté de l'intelligence artificielle. Après une méthode pour l'IA en local sur mobile, Ferret et Keyframer, la firme a mis au point une nouvelle méthode de formation des grands modèles de langage (LLM) qui intègre de manière transparente les informations textuelles et visuelles.

Apple veut établir une nouvelle norme

Les conclusions de l'entreprise, détaillées dans un document de recherche intitulé "MM1 : Methods, Analysis & Insights from Multimodal LLM Pre-training", présentent une nouvelle approche pour créer des systèmes d'IA plus intelligents et surtout plus flexibles. En utilisant un ensemble de données diversifié comprenant des images, des légendes, des documents image-texte entrelacés et des données textuelles, Apple affirme que le modèle MM1 établit une nouvelle norme dans la capacité de l'IA à effectuer des tâches plus complexes. Parmi les exemples, la firme de Cupertino cite le sous-titrage d'images, la réponse à des questions visuelles et l'inférence du langage naturel avec un haut niveau de précision.

Ce projet de recherche se concentre essentiellement sur la combinaison de différents types de données d'entraînement et d'architectures de modèles, ce qui permet à l'IA de comprendre et de générer du langage à partir d'un mélange d'entrées, que ce soit dans le format ou la langue. Une capacité qui permettrait à des outils comme ChatGPT de passer au niveau supérieur.



L'article souligne également les capacités exceptionnelles d'apprentissage en contexte du modèle MM1, en particulier dans la plus grande configuration du modèle, qui compte 30 milliards de paramètres. Cette version présente apparemment des capacités remarquables de raisonnement en plusieurs étapes sur de multiples images en utilisant une "chaîne de pensée" à quelques reprises, une technique qui permet à l'IA de résoudre des problèmes complexes et ouverts à partir d'un nombre minimal d'exemples. On imagine déjà un Siri nouvelle version incroyablement habile.



Tout cela n'est pas anodin, Apple étant en pleine bourre concernant l'IA qui devrait révolutionner iOS 18. Plus tôt dans la journée, Mark Gurman, de Bloomberg, a rapporté qu'Apple était en pourparlers avec Google afin d'obtenir une licence pour les modèles génératifs à grand langage Gemini, qui alimenteront les nouvelles fonctionnalités de l'iPhone. Tous les experts s'accordent à dire que les nouveautés seront principalement du côté logiciel cette année, les iPhone 16 n'apportant pas de changements majeurs.