エストニア語の音声入力とWindowsストリーミングの修正

エストニア語の音声入力とWindowsストリーミングの修正

昨日Smart Transcriptionをリリースしました。今日はそれが壊したものを丸一日かけて修正しました。

3つのリリース。3つのバグはすべて同じ現実に起因しています:リアルタイムで構築することは 音声からテキストへ アプリは見た目ほど簡単ではありません。

エストニア語の単語が消えていた

エストニア語で音声入力していたユーザーが異変に気づきました。単語「jää」(氷)が「j 」と表示されていました。単語「töötab」(動作する)が「t tab」になり、「Hääldada」(発音する)が「h ldada」になっていました。

単語の途中で文字が消えていたのです。

原因を見つけるのに時間がかかりました。昨日リリースした「um」や「uh」、「hmm」などのフィラー語を除去する機能に、 AI音声入力 でよく使われるエストニア語のためらい音のエントリーが含まれていたのです。これらの音は普通のエストニア語の単語の中にも現れます。

フィルターは単独のフィラー語と単語内の同じ文字列を区別できず、文字を削除してしまいました。

その文字列を含むすべてのエストニア語の単語が壊れてしまいました。

修正方法:問題のあるエントリーを高速フィルターから完全に削除しました。賢い AI文字起こし レイヤーは文脈を使ってエストニア語のフィラー語を検出できます。高速フィルターは安全に処理できません。

エストニア語、フィンランド語、そして英語アルファベット外の文字を含むすべての言語が正しく文字起こしされるようになりました。Superscribeは99言語の音声入力をサポートしており、今ではすべての言語が正しく動作します。

Windowsのストリーミングが間違った場所に入力されていた

2つ目のバグは Windows用の音声入力アプリに特有のものでした。段落の途中にカーソルを置いて音声入力を始めると、新しい単語が文書の最後に表示されてしまいます。

Mac用の 音声入力アプリではカーソル位置が正しく機能します。システムがネイティブに処理しているからです。Windowsはそれを自動で提供しません。

元の方法は単純なケースでは問題ありませんでした。しかし、 音声テキストのストリーミング リアルタイムで—話す言葉がそのまま表示される—と、すぐに複雑になります。テキストはカーソルの正確な位置に表示され、話し続ける間にスムーズに更新され、すべての言語と文字を正しく扱う必要があります。

正しく動作させるために、ストリーミングエンジンを1日で2回書き直しました。

最初の試みではカーソルのずれは直りましたが、特殊文字の問題や画面のちらつきが残っていました。2回目の試みは全く違う方法を取りました:文字を一つずつ挿入するのではなく、テキストを一度にまとめて更新する方式です。ちらつきなし。文字の破損なし。カーソルの飛び跳ねなし。

スムーズにするには努力が必要でしたが、その結果は価値があります。 Windowsでの音声からテキストへの変換は 今では本来あるべき姿になりました—話した瞬間にカーソルの位置に言葉が表示されます。

古いペーストのバグ

もう一つ小さなバグがありました。録音した文字起こしを保存してから新しい録音を始めてキャンセルすると、ペースト時に何もないはずが古い文字起こしが挿入されてしまう問題です。

簡単な修正ですが、誰かが 音声認識 アプリを予想と違う使い方をした時にしか気づかないタイプの問題です。

1日で3つのバージョン

その日の流れはこうでした:

v0.2.34 — 古いペーストのバグを修正。

v0.2.35 — Windows向けに初めてストリーミングを作り直し。カーソルのずれは直ったがまだ粗さが残る。

v0.2.36 — 2回目のストリーミング書き直しとエストニア語の文字修正。すべてがスムーズに。

3つのバージョンすべてが署名され、通常のリリースパイプラインで配布されています。最新にアップデートすればすべて利用可能です。

これがあなたに意味すること

エストニア語、フィンランド語、または特殊文字を含む言語で音声入力するなら—今はちゃんと動きます。文字が欠けることはありません。

WindowsでSuperscribeを使い、既存のテキストの途中に音声入力したい場合も—今はちゃんと動きます。カーソル位置が尊重されます。

ただスムーズで綺麗な 音声入力が欲しいなら デスクトップで — それがあなたに提供されるものです。

Superscribeは 自動時間追跡機能付きの音声からテキストへのアプリです MacとWindows向け。キーボードショートカットを押して話すと、あなたの言葉がどんな入力フィールドにも瞬時に表示されます。話している間に時間が自動で記録されます — タイマーもスプレッドシートも、作業内容を忘れることもありません。

もし他に何か壊れたら — 教えてください。バグ報告を書き終える前に修正をお届けします。もちろん話すだけで。

実際にもっと簡単に感じたいですか?

次の実際のタスクでSuperscribeを試してみてください

フォローアップ、メモ、メール、クライアント作業に使い、ワークフローに合うか判断してください。

Superscribeを試してみてください
← ブログに戻る