La majorité des sites web refusent d'entraîner l'IA d'Apple

👨 Nadim Lefebvre
Il y a 1 an (Màj il y a 1 an)
💬 2 coms

Les modèles d'intelligence artificielle ont besoin d'être entraînés sur d'immenses quantités de données textuelles, souvent récupérées en "aspirant" des millions de pages web. C'est dans ce contexte qu'Apple a donné cet été aux sites web plus de contrôle sur l'utilisation de leurs données pour entraîner ses modèles d'IA. Et il semble que de nombreux éditeurs et plateformes majeurs comme le New York Times et Facebook aient déjà choisi de se retirer.

Apple donne le choix, et beaucoup le saisissent

Il y a moins de trois mois, Apple a discrètement lancé un outil permettant aux éditeurs de refuser que leurs données servent à entraîner l'IA de la firme. Et de nombreux grands noms de l'info et des réseaux sociaux ont déjà sauté sur l'occasion.

WIRED a pu confirmer que Facebook, Instagram, Craigslist, Tumblr, le New York Times, le Financial Times, The Atlantic, Vox Media, le réseau USA Today et Condé Nast font partie des nombreuses organisations qui ont choisi d'exclure leurs données de l'entraînement de l'IA d'Apple. Aux Etats-Unis, un journaliste a analysé que sur 1167 médias en ligne 294 d'entre eux avaient refusé d'entraîner Apple Intelligence.

Un nouvel outil, Applebot-Extended, est une extension du robot d'indexation d'Apple. Il permet spécifiquement aux propriétaires de sites de dire à Apple de ne pas utiliser leurs données pour entraîner son IA. De fait, Cupertino entraîne ses modèles d'une manière plus éthique que ses concurrents qui ne laissent généralement pas la liberté aux sites web de refuser le scrapping. Sur l'entraînement de son IA, Apple précise :

Nous entraînons nos modèles de base sur des données sous licence, y compris des données sélectionnées pour améliorer certaines fonctionnalités spécifiques, ainsi que sur des données accessibles au public collectées par notre robot d'indexation, AppleBot. Les éditeurs de sites web ont la possibilité de refuser l'utilisation de leur contenu web pour l'entraînement de l'intelligence Apple grâce à un contrôle d'utilisation des données […]

Nous appliquons des filtres pour supprimer les informations personnellement identifiables, telles que les numéros de sécurité sociale et de carte de crédit, qui sont accessibles au public sur Internet.

À l'origine, Applebot, annoncé en 2015, parcourait Internet pour alimenter les produits de recherche d'Apple comme Siri et Spotlight. Mais récemment, son rôle s'est élargi : les données collectées peuvent aussi servir à entraîner les modèles de langage créés par Apple pour ses efforts en IA.

Un choix stratégique pour certains

Selon Jon Gillham, fondateur d'Originality AI, "beaucoup des plus grands éditeurs du monde ont clairement une approche stratégique". Il pense que dans certains cas, il y a une stratégie commerciale derrière : retenir les données jusqu'à ce qu'un accord de partenariat soit en place.

Le New York Times, qui poursuit OpenAI pour violation de droits d'auteur, critique le fait de devoir activement refuser Applebot-Extended et ses semblables. Le directeur de la communication du NYT explique :

Comme la loi et les conditions d'utilisation du Times l'indiquent clairement, l'extraction ou l'utilisation de notre contenu à des fins commerciales est interdite sans notre autorisation écrite préalable.

On ne sait pas si Apple est plus proche de conclure des accords avec les éditeurs. Mais le cas échéant, les conséquences de tout arrangement de partage de données pourraient être visibles dans les fichiers robots.txt avant même d'être annoncées publiquement. Gillham conclut :

Je trouve fascinant qu'une des technologies les plus importantes de notre époque soit développée, et que la bataille pour ses données d'entraînement se joue sur ce fichier texte vraiment obscur, en public, pour que nous puissions tous la voir.