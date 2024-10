Apple, parmi d’autres géants technologiques, a été accusé d’utiliser des contenus vidéo de YouTube sans la permission des créateurs pour entraîner ses modèles d’intelligence artificielle. Un rapport récent de WIRED révèle que des sous-titres provenant de plus de 170 000 vidéos YouTube ont été utilisés sans consentement. Ces vidéos incluent des contenus de créateurs bien connus comme Marquees Brownlee (MKBHD) et des émissions telles que celles de Stephen Colbert et Jimmy Kimmel.

Cette collecte massive a été réalisée par une entreprise nommée EleutherAI, qui a rassemblé des sous-titres de vidéos YouTube pour créer un ensemble de données nommé “YouTube Subtitles”. Cette base de données a été utilisé par des entreprises telles que Apple, Nvidia, Salesforce et Anthropic pour entraîner leurs modèles d’IA. Les sous-titres incluent des traductions en langues comme le japonais, l’allemand et l’arabe, et proviennent de plus de 48 000 chaînes YouTube, y compris des vidéos éducatives de Khan Academy, MIT, et Harvard, ainsi que des contenus de médias tels que le Wall Street Journal, NPR, et la BBC.



De fait, ce n'est pas Apple qui extrait ces données directement mais bien une entreprise tierce. Il y a fort à parier que Cupertino ne soit pas au courant des pratiques de son sous-traitant EleutherAI, bien que la plateforme Apple Intelligence en bénéficie.

Réactions des créateurs et implications légales

Les créateurs, comme David Pakman et Marques Brownlee, ont exprimé leur frustration face à cette exploitation non autorisée de leur travail. Pakman a découvert que près de 160 de ses vidéos étaient incluses dans l’ensemble de données, soulignant l’impact sur son entreprise et exigeant une compensation pour l’utilisation de ses contenus. La pratique de l’utilisation de contenus sans autorisation enfreint les règles de YouTube et soulève des questions éthiques et légales.

Apple has sourced data for their AI from several companies



One of them scraped tons of data/transcripts from YouTube videos, including mine



Apple technically avoids "fault" here because they're not the ones scraping



But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY — Marques Brownlee (@MKBHD) July 16, 2024

L’utilisation non autorisée de contenus YouTube par des entreprises tierces pour entraîner des modèles d’IA soulève des questions éthiques et légales importantes. Les créateurs de contenu, dont le travail est utilisé sans compensation, demandent des mesures de protection et une réglementation appropriée pour éviter de futurs abus. Les géants de la technologie devront faire face à une pression croissante pour respecter les droits des créateurs tout en développant leurs technologies d’IA.



