Correction de la dictée estonienne et du streaming Windows
Hier, nous avons lancé Smart Transcription. Aujourd'hui, nous avons passé toute la journée à réparer ce qu'elle avait cassé.
Trois versions. Trois bugs qui remontent tous à la même réalité : créer une application de voix en texte en temps réel est plus difficile qu'il n'y paraît.
Des mots estoniens disparaissaient
Un utilisateur dictant en estonien a remarqué un problème. Le mot « jää » (glace) apparaissait comme « j ». Le mot « töötab » (fonctionne) devenait « t tab ». « Hääldada » (prononcer) se transformait en « h ldada ».
Des lettres disparaissaient au milieu des mots.
Il nous a fallu un moment pour trouver la cause. Le filtre de mots de remplissage — la fonctionnalité que nous avons déployée hier pour supprimer les « euh », « hum » et « hmm » de votre dictée IA — contenait des entrées pour des sons d'hésitation courants en estonien. Des sons qui apparaissent aussi à l'intérieur de mots estoniens normaux.
Le filtre ne pouvait pas faire la différence entre un mot de remplissage isolé et les mêmes lettres à l'intérieur d'un vrai mot. Il les supprimait donc.
Chaque mot estonien contenant ces combinaisons de lettres était déformé.
La solution : supprimer complètement les entrées problématiques du filtre rapide. La couche intelligente de transcription IA peut toujours détecter les mots de remplissage estoniens grâce au contexte. Le filtre rapide ne peut tout simplement pas les gérer en toute sécurité.
L'estonien, le finnois et toutes les autres langues avec des caractères hors de l'alphabet anglais se transcrivent désormais correctement. Superscribe prend en charge la dictée en 99 langues — et maintenant toutes fonctionnent comme elles le devraient.
Le streaming Windows arrivait au mauvais endroit
Le deuxième bug était spécifique à notre application de dictée pour Windows. Vous placez votre curseur au milieu d'un paragraphe. Vous commencez à dicter. Les nouveaux mots apparaissent — à la fin du document.
Sur notre application de dictée pour Mac, la position du curseur fonctionne simplement. Le système le gère nativement. Windows ne vous offre pas cela gratuitement.
Notre approche initiale fonctionnait bien pour les cas simples. Mais quand vous commencez à diffuser texte vocal en temps réel — les mots apparaissent au fur et à mesure que vous les prononcez — les choses se compliquent rapidement. Le texte doit s’insérer exactement à l’endroit où se trouve votre curseur, se mettre à jour en douceur pendant que vous continuez à parler, et gérer correctement toutes les langues et tous les caractères.
Nous avons réécrit le moteur de streaming deux fois en une journée pour que ce soit parfait.
La première tentative a corrigé le décalage du curseur mais avait encore des problèmes avec les caractères spéciaux et des scintillements visuels. La deuxième tentative a adopté une approche complètement différente : au lieu d’insérer les caractères un par un, nous mettons maintenant à jour tout le texte en une seule fois. Plus de scintillement. Pas de corruption de caractères. Pas de saut du curseur.
Ça a demandé des efforts pour que ce soit fluide, mais le résultat en vaut la peine. La reconnaissance vocale sur Windows fonctionne maintenant comme elle devrait — les mots apparaissent là où se trouve votre curseur, au moment où vous les dites.
Le bug du collage obsolète
Il y avait un troisième bug, plus petit. Si vous aviez enregistré une transcription, puis commencé un nouvel enregistrement et l’aviez annulé, le collage insérait l’ancienne transcription au lieu de rien.
Correction simple, mais ce genre de problème ne se remarque que quand quelqu’un utilise l’application de reconnaissance vocale différemment de ce que vous aviez prévu.
Trois versions en une journée
Voici comment la journée s’est déroulée :
v0.2.34 — Correction du bug du collage obsolète.
v0.2.35 — Première réécriture du streaming pour Windows. Correction du décalage du curseur mais encore des imperfections.
v0.2.36 — Deuxième réécriture du streaming plus correction des caractères estoniens. Tout est fluide.
Les trois versions sont signées et distribuées via notre pipeline de mise à jour habituel. Mettez à jour vers la dernière version et tout est là.
Ce que cela signifie pour vous
Si vous dictez en estonien, finnois ou toute langue avec des caractères spéciaux — ça fonctionne maintenant. Plus de lettres manquantes.
Si vous utilisez Superscribe sur Windows et aimez dicter au milieu d’un texte existant — ça fonctionne maintenant. La position de votre curseur est respectée.
Si vous voulez juste une saisie vocale fluide et propre sur votre bureau — c’est ce que vous obtenez.
Superscribe est une application de reconnaissance vocale avec suivi automatique du temps pour Mac et Windows. Appuyez sur un raccourci clavier, parlez, et vos mots apparaissent instantanément dans n’importe quel champ de saisie. Le temps se suit tout seul pendant que vous dictez — pas de minuteurs, pas de feuilles de calcul, pas d’oubli de ce sur quoi vous avez travaillé.
Et si quelque chose d’autre a cassé — dites-le nous. Nous livrerons la correction avant que vous ayez fini de rédiger le rapport de bug. En parlant, évidemment.
Lectures associées
Vous voulez que ce soit plus simple en pratique ?
Essayez Superscribe sur votre prochaine tâche réelle
Utilisez-le pour les suivis, notes, emails et travail client, puis décidez s'il convient à votre flux de travail.
Essayez Superscribe