La mise à jour vocale de ChatGPT esquisse le futur Siri 2.0

👨 Alban Martin
Il y a 19 min
💬 1 com

OpenAI vient de déployer une mise à jour en apparence anodine mais qui change tout : une véritable intégration entre la voix et texte dans l'application ChatGPT. Désormais, vous pouvez parler, voir les réponses s’afficher en temps réel à l’écran, faire défiler l’historique de la conversation, voir des images ou des cartes apparaître, et repasser au clavier quand vous voulez – le tout sans jamais quitter le mode voix ni changer d’application. La différence est énorme et Apple pourrait en profiter.

Ce qui ressemblait jusque-là à deux produits distincts (ChatGPT texte et ChatGPT voix) devient enfin un seul assistant cohérent. Après quelques jours d’utilisation, nous sommes convaincus que c’est le strict minimum que nous devons exiger du « nouveau Siri » qu’Apple nous promet depuis des années.

Pourquoi cette intégration change tout

Quand le mode voix est arrivé, il était impressionnant mais frustrant :

95 % de la conversation coulait naturellement à l’oral
Puis on butait sur un mur (« génère-moi une image », « montre-moi un plan », « modifie ce texte ») et il fallait reprendre le téléphone, changer de mode ou d’app, taper, et souvent abandonner

La nouvelle mise à jour supprime cette friction. Vous parlez, l’assistant vous répond à voix haute, le texte s’affiche en même temps, les visuels apparaissent instantanément, et vous pouvez interrompre ou corriger au clavier à tout moment. On a vraiment l’impression de parler à une personne qui prend des notes et fait défiler des slides sur un écran partagé.

C’est exactement l’expérience qu’Apple doit proposer si sa grande vision « Apple Intelligence » veut tenir ses promesses.

Siri part dans l’autre sens

Apple tente la même convergence, mais à l’envers :

Siri est né 100 % vocal (2011)
Apple Intelligence ajoute maintenant des capacités texte et visuelles (résumés, génération d’images, outils d’écriture, etc.)

Faire fusionner de manière fluide un assistant vocal vieux de 13 ans avec du texte riche, des images, des données en direct et des actions dans les apps est un chantier colossal – ce qui explique très probablement le retard que prend le nouveau Siri « tueur de ChatGPT ». OpenAI n'a d'ailleurs pas sorti un produit parfait, GPT perdant parfois la boule.

Ce que le Siri fini devra absolument savoir faire

Pour tenir toutes les promesses d’Apple, le nouveau Siri devra :

Accepter des instructions vocales naturelles
Répondre à voix haute tout en manipulant simultanément du texte, des images et du contenu à l’écran
Agir comme un véritable agent dans vos applications (« Réserve le train le moins cher demain matin de Paris à Londres avec l’appli que j’ai », « Décale mon rendez-vous de 15 h à 16 h et préviens les participants », « Commande ma pizza habituelle chez Domino's pour dans 20 minutes »)

Tout cela de façon fluide, multimodale et consciente des apps. Tout ce qui sera en deçà paraîtra décevant en 2026.

Apple devra être aidée

Construire tout cela de A à Z, à la vitesse à laquelle l’industrie avance, semble de plus en plus irréaliste. On parie plutôt sur de gros partenariats – que ce soit un approfondissement avec OpenAI, Google Gemini, Anthropic ou un mélange. Franchement, peu importe qui fournit les modèles sous le capot, du moment que deux conditions sont respectées :

La confidentialité reste sacrée – avec des interfaces sur mesure qui empêchent l’utilisation de mes données pour entraîner les modèles tiers (exactement comme le fait déjà le fallback actuel vers ChatGPT)
Une sortie rapide – 2026 est déjà la limite absolue de la patience des utilisateurs. On parle d'iOS 26.4. Sinon, ce sera iOS 27.

Si le chemin le plus rapide vers un Siri vraiment utile, conversationnel, conscient de l’écran et capable d’agir dans les apps passe par une version personnalisée de ChatGPT ou Gemini enveloppée dans les protections de confidentialité d’Apple, alors qu’Apple le lance sans hésiter. La dernière mise à jour vocale de ChatGPT n’est pas qu’une petite amélioration : c’est le nouveau standard de base. Apple doit l’égaler, puis le dépasser.

Vous en pensez quoi ?