Apple défend son approche "responsable" pour entraîner son IA

👨 Nadim Lefebvre
Il y a 1 an
💬 Réagir

Apple vient de publier un document technique détaillant les modèles développés pour Apple Intelligence, sa gamme de fonctionnalités d'IA générative qui arriveront publiquement sur iOS, macOS et iPadOS dans les prochains mois. La firme de Cupertino en profite pour répondre aux accusations sur ses méthodes d'entraînement, en réaffirmant n'avoir utilisé aucune donnée privée des utilisateurs.

Un mélange de données publiques et sous licence

Pour entraîner ses modèles "Apple Foundation Models" (AFM), Apple dit avoir eu recours à un mélange de données provenant de trois sources principales :

Des contenus sous licence obtenus auprès d'éditeurs. Selon le New York Times, Apple aurait signé fin 2023 des accords pluriannuels de plus de 50 millions de dollars avec NBC, Condé Nast ou encore IAC pour exploiter leurs archives.
Des jeux de données publics soigneusement sélectionnés, avec des licences autorisant l'entraînement de modèles d'IA. Apple assure avoir filtré ces données pour en retirer toute information sensible.
Des informations publiques collectées par son crawler Applebot sur le web.

Apple souligne qu'aucune donnée privée des utilisateurs n'a été incluse dans ce mix. La firme avait été pointée du doigt en juillet pour avoir utilisé un dataset appelé "The Pile", contenant des sous-titres YouTube sans le consentement des créateurs. Elle avait alors déclaré ne pas avoir l'intention d'exploiter ces modèles spécifiques pour ses futures fonctionnalités d'IA.

Du code open-source et des maths au programme

Les modèles AFM ont aussi été entraînés sur du code open-source hébergé sur GitHub (Swift, Python, C...). Un sujet controversé, de nombreux dépôts n'autorisant pas une telle utilisation dans leurs conditions d'utilisation. Apple assure avoir filtré pour ne garder que ceux avec le moins de restrictions, comme ceux sous licence MIT, ISC ou Apache.

Pour renforcer les capacités en mathématiques de ses IA, Apple a spécifiquement inclus des problèmes et réponses issus de pages web, forums, blogs, tutoriels et séminaires sur le sujet. Des jeux de données publics "de haute qualité" ont aussi été utilisés pour du fine-tuning, afin de gommer les comportements indésirables.

Au total, le jeu de données d'entraînement des modèles AFM pèse environ 6,3 milliards de tokens, contre 15 milliards pour le modèle phare de Meta, Llama 3.1 405B. Apple dit avoir aussi eu recours au feedback humain et à des données synthétiques pour mieux coller aux besoins des utilisateurs et respecter ses principes d'IA responsable à chaque étape.

Des zones d'ombre persistent malgré la transparence affichée

Si le document se veut transparent, il reste avare en détails, sans doute pour éviter tout problème juridique. Apple permet certes aux sites web de bloquer l'indexation de leurs données par son crawler, mais cela n'aide pas les créateurs individuels à protéger leurs œuvres si elles sont hébergées sur des sites tiers refusant ce blocage.

Les batailles juridiques à venir devront trancher sur les pratiques d'entraînement des IA génératives, certaines entreprises invoquant le "fair use" pour justifier l'utilisation de données publiques. En attendant, Apple s'efforce de se positionner en acteur éthique, en nouant des partenariats financiers avec des agences de presse et autres médias.

Pas sûr que cela suffise à dissiper toutes les inquiétudes sur le respect de la vie privée et de la propriété intellectuelle. Mais la firme compte bien capitaliser sur son image de champion de la confidentialité. Avec iOS 18.1 et macOS 15.1, les utilisateurs pourront accéder à un rapport détaillé sur le traitement de leurs requêtes par Apple Intelligence, y compris si elles ont été traitées sur l'appareil ou dans le cloud sécurisé d'Apple.

Source