Apple accusée d'avoir entraîné son IA sur des livres piratés

Nadim Lefebvre
Il y a 10 mois (Màj il y a 10 mois)
💬 2 coms
🔈 Écouter

Apple Intelligence

Apple fait face à une nouvelle bataille juridique qui pourrait redéfinir les pratiques d'entraînement de l'IA dans l'industrie tech. Deux auteurs américains accusent la firme de Cupertino d'avoir utilisé des livres piratés pour développer Apple Intelligence, dans une class action déposée en Californie.

Une accusation fondée sur les propres documents d'Apple

Grady Hendrix et Jennifer Roberson reprochent à Apple d'avoir exploité le dataset Books3, une base de données controversée contenant des milliers d'ouvrages piratés issus de "bibliothèques fantômes" comme Bibliotik. L'ironie de cette affaire réside dans le fait que Apple s'est elle-même trahie : les auteurs fondent leurs accusations sur la documentation officielle d'OpenELM, un modèle open-source publié par l'entreprise sur Hugging Face.

Cette documentation révèle l'utilisation de RedPajama, qui s'appuie justement sur Books3. Apple, qui s'était pourtant engagée publiquement à respecter les standards du web comme robots.txt et à ne pas aspirer de contenu non autorisé, se retrouve ainsi prise à son propre piège. Les plaignants affirment qu'Applebot, le robot d'indexation d'Apple, collecte massivement du contenu en ligne depuis près d'une décennie.

Un timing qui n'est pas un hasard

Cette procédure survient quelques jours seulement après qu'Anthropic a accepté de verser 1,5 milliard de dollars pour régler une affaire similaire. Ce règlement record pourrait servir de référence pour évaluer les dommages potentiels face à Apple. Les auteurs réclament non seulement des compensations financières, mais aussi la destruction pure et simple des modèles d'IA entraînés sur leurs œuvres.

Pour Apple, qui positionne Apple Intelligence comme une alternative plus éthique et respectueuse de la vie privée face aux géants de l'IA, cette affaire représente un défi majeur. L'entreprise avait pourtant signé des accords de licence coûteux, notamment avec Shutterstock pour les images, dans une démarche qui semblait plus responsable que celle de ses concurrents.

Cette bataille s'inscrit dans un contexte plus large où OpenAI, Microsoft et Meta font également face à des poursuites similaires. L'issue de ces procédures déterminera non seulement le coût des données d'entraînement, mais aussi qui contrôle les fondations technologiques de l'intelligence artificielle moderne.

Source