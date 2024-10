Apple a mis en libre accès Ferret, son propre modèle d'IA multimodale capable de comprendre les images de manière conversationnelle grâce à un raisonnement conjoint sur les données visuelles et textuelles. Cette initiative corrobore les rumeurs et démontre l'intention d'Apple de se lancer dans le domaine de l'intelligence artificielle. Comme toujours, c'est une approche intéressante et, comme assez souvent, elle est open-source.

Bonjour Ferret !

Apple a discrètement publié sa première IA multimodale Large Language Model (LLM) baptisée "Ferret". Sous la forme d'un projet open-source, la nouvelle intelligence artificielle d'Apple a été présentée en octobre par Zhe Gan, chercheur en IA chez le constructeur américain, via X, mais elle est passée largement inaperçue jusqu'à présent. Ferret a été développé conjointement par Zhe Gan et ses collègues d'Apple, ainsi que par des chercheurs de l'université de Columbia. Selon Zhe Gan, Ferret est plus précis dans la compréhension et la description de petites régions d'images que GPT-4 d'OpenAI, tout en produisant moins d'erreurs. Tout juste ce qu'il faut.

🚀🚀Introducing Ferret, a new MLLM that can refer and ground anything anywhere at any granularity.

📰https://t.co/gED9Vu0I4y

1⃣ Ferret enables referring of an image region at any shape

2⃣ It often shows better precise understanding of small image regions than GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc — Zhe Gan (@zhegan4) October 12, 2023

Il est intéressant de noter que le dépôt Github d'Apple révèle que l'entreprise a entraîné Ferret à l'aide de 8 GPU Nvidia A100 haut de gamme équipés de 80 Go de RAM HBM2e. Pour ceux qui suivent, l'A100 est le GPU le plus demandé sur le marché suite à l'explosion de la technologie d'IA générative qui a suivi le lancement de ChatGPT d'OpenAI à la fin de l'année 2022. Il est capable de réaliser 312 TeraFLOPS en précision Tensor Float 32 et le modèle de 80 Go utilisé par Apple pour entraîner Ferret offre une bande passante allant jusqu'à 2 039 Go/s. L'entreprise ne révèle toutefois pas le sujet utilisé pour entraîner le nouveau modèle.

Les avantages de l'approche open-source de Ferret

Ferret fait l'objet d'une licence open-source non commerciale de la part d'Apple. Cela contraste avec l'approche historiquement fermée de l'entreprise en matière de recherche sur l'IA, mais cela rejoint certains projets comme Webkit ou le langage Swift.



La mise à disposition de Ferret en tant que logiciel libre présente plusieurs avantages :

Il permet une large collaboration : Les chercheurs du monde entier peuvent s'appuyer sur les fondements de Ferret, et Apple bénéficie de ce progrès collectif.

Favorise l'innovation : Le code étant accessible au public, de nouvelles extensions et applications de Ferret peuvent voir le jour au-delà de ce qu'Apple a imaginé.

Favorise la transparence : L'externalisation permet d'apaiser les craintes de partialité et de sécurité qui entourent les systèmes d'IA propriétaires fermés.

Ferret pose les bases de l'IA "made in Apple"

Ferret constitue une base solide sur laquelle Apple va s'appuyer pour construire une IA conversationnelle de haut rang. Sa version open-source permet la collaboration d'une plus grande communauté de contributeurs que le développement en interne.



Parmi les orientations futures de Ferret, citons l'extension à d'autres modalités que les images et le texte, l'amélioration du raisonnement fondé sur le bon sens et l'amélioration de la base factuelle. Du côté des applications, Ferret pourrait être incorporé dans des produits Apple tels que la recherche visuelle Spotlight pour comprendre les requêtes des utilisateurs concernant les images. Mais aussi pour améliorer les réponses de Siri avec des interactions plus vraies que nature.



L'objectif est aussi et surtout de le concevoir pour fonctionner en local sur iPhone. Le modèle GPT4 d'OpenAI aurait plus de 1 000 milliards de paramètres, mais les téléphones portables ne peuvent actuellement gérer que des LLM d'environ 10 milliards de paramètres. C'est pourquoi les chercheurs d'Apple ont récemment fait une percée en démontrant comment compléter la mémoire vive d'un smartphone par un stockage flash embarqué afin d'intégrer des modèles plus volumineux qui devrait faire toute la différence.