VSSFlow : l'IA d'Apple qui ajoute du son aux vidéos muettes
- 👨 Alexandre Godard
- Hier à 21:53
- 💬 Réagir
Apple présente VSSFlow, une IA qui ajoute du son aux vidéos muettes
Des chercheurs d’Apple et d’une université chinoise ont créé VSSFlow, un modèle d’intelligence artificielle capable de générer des sons et de la parole à partir de vidéos silencieuses. Cette technologie utilise un seul système unifié pour produire à la fois des effets sonores et des dialogues.
Les modèles d’IA actuels ont un problème. Ceux qui génèrent des sons à partir de vidéos sont mauvais pour créer de la parole. Et ceux qui créent de la parole ne savent pas produire d’autres sons. Les tentatives précédentes pour combiner ces deux fonctions fonctionnaient mal.
VSSFlow résout ce problème avec une approche nouvelle. Le modèle apprend les deux tâches en même temps. Et chose surprenante, l’apprentissage de la parole améliore la génération de sons, et vice versa. Les deux se renforcent mutuellement au lieu de se nuire.
Le système fonctionne avec une architecture à 10 couches. Il analyse les vidéos à 10 images par seconde pour comprendre les sons ambiants. En même temps, il utilise une transcription du texte pour guider la création de la voix. Le modèle part d’un bruit aléatoire et le transforme progressivement en son cohérent.
Pour entraîner VSSFlow, les chercheurs ont utilisé trois types de données : des vidéos muettes avec des sons environnementaux, des vidéos de personnes parlant avec des transcriptions, et des données texte-vers-parole. Cette combinaison permet au modèle de maîtriser les deux aspects.
Les tests montrent que VSSFlow rivalise avec des modèles spécialisés. Il performe aussi bien qu’eux malgré son système unifié. Les chercheurs ont publié des démonstrations impressionnantes sur leur site web. Ils ont aussi rendu le code disponible sur GitHub et prévoient de partager les poids du modèle.
VSSFlow peut aussi générer simultanément des sons de fond et de la parole. Pour cela, les chercheurs ont affiné le modèle avec des exemples où sons et dialogues étaient mélangés. Cette technologie ouvre des possibilités pour améliorer les vidéos et créer du contenu audio réaliste.