VSSFlow : l'IA d'Apple qui ajoute du son aux vidéos muettes

apple intelligence iconApple continue d’explorer des usages spectaculaires de l’intelligence artificielle. Avec VSSFlow, un nouveau modèle capable de recréer sons et voix à partir de simples vidéos silencieuses, des chercheurs ouvrent la voie à une génération audio bien plus réaliste et unifiée que tout ce qui existait jusqu’ici.

Apple présente VSSFlow, une IA qui ajoute du son aux vidéos muettes

Des chercheurs d’Apple et d’une université chinoise ont créé VSSFlow, un modèle d’intelligence artificielle capable de générer des sons et de la parole à partir de vidéos silencieuses. Cette technologie utilise un seul système unifié pour produire à la fois des effets sonores et des dialogues.

Les modèles d’IA actuels ont un problème. Ceux qui génèrent des sons à partir de vidéos sont mauvais pour créer de la parole. Et ceux qui créent de la parole ne savent pas produire d’autres sons. Les tentatives précédentes pour combiner ces deux fonctions fonctionnaient mal.

VSSFlow résout ce problème avec une approche nouvelle. Le modèle apprend les deux tâches en même temps. Et chose surprenante, l’apprentissage de la parole améliore la génération de sons, et vice versa. Les deux se renforcent mutuellement au lieu de se nuire.

apple intelligence logo isoft colors dark

Le système fonctionne avec une architecture à 10 couches. Il analyse les vidéos à 10 images par seconde pour comprendre les sons ambiants. En même temps, il utilise une transcription du texte pour guider la création de la voix. Le modèle part d’un bruit aléatoire et le transforme progressivement en son cohérent.

Pour entraîner VSSFlow, les chercheurs ont utilisé trois types de données : des vidéos muettes avec des sons environnementaux, des vidéos de personnes parlant avec des transcriptions, et des données texte-vers-parole. Cette combinaison permet au modèle de maîtriser les deux aspects.

Les tests montrent que VSSFlow rivalise avec des modèles spécialisés. Il performe aussi bien qu’eux malgré son système unifié. Les chercheurs ont publié des démonstrations impressionnantes sur leur site web. Ils ont aussi rendu le code disponible sur GitHub et prévoient de partager les poids du modèle.

VSSFlow peut aussi générer simultanément des sons de fond et de la parole. Pour cela, les chercheurs ont affiné le modèle avec des exemples où sons et dialogues étaient mélangés. Cette technologie ouvre des possibilités pour améliorer les vidéos et créer du contenu audio réaliste.​​

3 réactions

JordiForti92 - iPhone premium

@Stevenmtl
Tu taff gratuitement ?

Je pense pas, donc oui c’est relou, faut pouvoir y mettre du sien et payer les admins pour leurs travaux titanesques 😉

Merci à eux et l’achat in-app est pas exage

10/02/2026 à 06h32

Stevenmtl - iPhone

c'est fou comment la pub ici est devenu intense genre des vidéo de jeu de 1 minute... vous poussez vraiment à payer

10/02/2026 à 02h41

Ambiance XXL - iPhone

Si les vidéos ne durent que 10 secondes, c’est vraiment pas la peine.

10/02/2026 à 01h06

Donnez votre avis
Cliquez pour commenter
Vous aimerez peut-être

Suivez-nous avec notre app iSoft
Articles populaires
Les derniers articles