Les nouvelles API de transcription d'Apple écrasent Whisper !
- 👨 Alban Martin
- Il y a 8 heures
- 💬 2 coms
Apple est toujours un champion de l'optimisation
Les frameworks de reconnaissance vocale natifs d'Apple alimentent la transcription en temps réel dans des applications comme Notes, Dictaphone et la transcription d'appels téléphoniques introduite dans iOS 18.1. Avec iOS 26 et macOS Tahoe, Apple a lancé la classe SpeechAnalyzer et le module SpeechTranscriber pour gérer ces tâches plus efficacement.
Notre confrère a testé les API avec Yap, un outil en ligne de commande sur Github et développé par son fils, Finn. L'outil a transcrit une vidéo de 34 minutes et 7 Go en seulement 45 secondes, soit 55 % plus vite que le modèle Large V3 Turbo de MacWhisper, qui a pris 1 minute 41 secondes. D'autres outils basés sur Whisper ont été encore plus lents, avec VidCap à 1:55 et le modèle Large V2 de MacWhisper à 3:55. La qualité de la transcription est restée comparable pour tous les modèles.
L'avantage de vitesse d'Apple provient principalement de son traitement sur l'appareil, éliminant les délais des systèmes basés sur le cloud. Bien que l'économie de temps puisse sembler modeste pour un seul fichier, Voorhees souligne que les bénéfices augmentent considérablement pour plusieurs vidéos ou des contenus plus longs, pouvant faire gagner des heures aux utilisateurs transcrivant des conférences ou créant des sous-titres.
Le framework Speech est disponible sur iPhone, iPad, Mac et Vision Pro dans les dernières versions bêta, avec Xcode 26. Voorhees prédit que la technologie de transcription d'Apple pourrait bientôt supplanter Whisper comme choix privilégié pour les applications de transcription sur Mac et iPhone.