スマート文字起こし:話すのをやめた後に起こること
ほとんどの音声入力アプリは話すのをやめた瞬間に動作を停止します。生のテキストがそのまま出力され、「えーと」「あの」「途中で止まった文」などがすべて含まれています。あとは自分でそれを整理しなければなりません。
Superscribeのスマートな文字起こしパイプラインはこれを変えます。生の音声を受け取り、2段階で処理します:即時のフィラー除去、そしてAIによるテンプレートフォーマット。結果は編集不要で使える出力です。
仕組みはこうです。
ステージ1:フィラー語の除去(即時)
最初の段階は音声が文字起こしされる瞬間に行われます。AIがテキストに触れる前に、フィラー語が即座に取り除かれます。
これは言語モデルが何を残すか判断しているわけではありません。パターンマッチングです。速く、予測可能で、徹底的です。
除去されるもの:
- フィラー語:「えーと」「あの」「うーん」「みたいな」「ね」「基本的に」
- 99以上の言語に対応した言語特有のフィラー語:ドイツ語の「äh」、フランス語の「euh」、エストニア語の「noh」、スペイン語の「pues」など多数
- 繰り返しの単語:「the the」「I I」「so so」
- 除去後に残る句読点の痕跡(孤立したコンマ、二重スペース、末尾のドット)
重要なポイント:遅延はゼロです。純粋なテキスト変換として動作し、ネットワーク呼び出しもモデル推論もありません。文字起こしが表示される時点でフィラーはすでに消えています。
多くの用途ではこれで十分です。話すとフィラーが消え、きれいなテキストが得られます。完了です。
しかし、時にはきれいなテキスト以上のものが必要です。フォーマットされた出力が必要です。
ステージ2:AIテンプレート処理
ここで13種類の出力テンプレートが登場します。テンプレートを選ぶと、AIモデルがきれいになった文字起こしを特定の文書形式に整形します。
処理は感情を認識します。言葉だけでなく、あなたの話したトーンや意図を読み取ります。イライラしたバグ報告はイライラしたままです。カジュアルなメッセージはカジュアルなままです。AIはあなたの声を平坦にせずに再フォーマットします。
処理中はスピナーが表示されるので、処理が行われていることがわかります。テンプレートや長さによっては数秒かかります。
実際の例を使って、これがどのように見えるか見てみましょう。
例1:生の口述からプロフェッショナルなメールへ
あなたが言ったこと:
「ねえ、クライアントとロゴデザインについてライブでやり取りしたいんだけど、第2ラウンドが終わって、オプションBが一番強いと思うけど、決めるのは彼らに任せるべきだね。あと、彼らのフィードバックの遅れでスケジュールが約1週間ずれたことも伝える必要がある」
不要な言葉を除去した後:
「ねえ、クライアントとロゴデザインについてライブでやり取りしたいんだけど、第2ラウンドが終わって、オプションBが一番強いと思うけど、決めるのは彼らに任せるべきだね。あと、彼らのフィードバックの遅れでスケジュールが約1週間ずれたことも伝える必要がある」
プロフェッショナルなメールテンプレート適用後:
件名:ロゴデザインの更新 - 第2ラウンド完了
こんにちは [Client]、
ロゴデザインの第2ラウンドが完了しました。提示したオプションの中で、オプションBが最も強い方向性ですが、進める前にぜひご意見をお聞かせください。
スケジュールについて一言:前回のラウンドのフィードバック遅延により、スケジュールが約1週間ずれています。更新されたプロジェクトのタイムラインは別途お送りします。
デザインについてのご意見をお早めにお知らせください。
よろしくお願いいたします。
一度の口述。編集なし。すぐに送信可能。
例2:ブレインダンプから会議メモへ
あなたが言ったこと:
「さて、今日のスタンドアップでマーカスが言ってたんだけど、API統合がサードパーティのドキュメントが間違っているせいで止まってるって。サラはオンボーディングフローを仕上げてて、木曜日までには終わるはず。あと、APIの件でリリースを3月1日から3月8日に延期することにした。それと金曜日のクライアントプレゼン用にデモルームを予約しないと」
会議メモテンプレート:
会議メモ
出席者: マーカス、サラ
アップデート:
- サードパーティのドキュメント不備でAPI統合が停止(マーカス)
- オンボーディングフローは順調で木曜日までに完了予定(サラ)
決定事項:
- API統合の問題でリリースを3月1日から3月8日に延期
アクションアイテム:
- 金曜日のクライアントプレゼン用にデモルームを予約
このテンプレートは出席者を特定し、アップデートと決定事項を分け、アクションアイテムを抽出します。すべて20秒ほどの一気通貫の話し言葉からのクリーンアップで実現しています。
例3:コーディング - 音声からのAIプロンプト
ここから開発者にとって面白くなります。AIコーディングプロンプトテンプレートは、作りたいものの口頭説明を受けて、それをAIコーディングアシスタントに直接貼り付けられるプロンプトに構造化します。
あなたが言ったこと:
「検索フィルター付きのドロップダウンメニューを表示するReactコンポーネントが必要です。propsとして選択肢の配列を受け取り、入力中に一致するテキストをハイライトし、選択時にonChangeハンドラーを呼び出します。矢印キーでのキーボードナビゲーションとEnterキーでの選択も対応してください」
AIコーディングプロンプトテンプレート後:
以下の要件でReactコンポーネントを作成してください:
コンポーネント: SearchableDropdown
props:
- options:選択可能なアイテムの配列
- onChange:選択時に呼ばれるコールバック関数
機能:
- 検索/フィルター入力付きドロップダウンメニュー
- 入力中に選択肢の一致テキストをハイライト
- キーボードナビゲーション(矢印キーで移動、Enterで選択)
動作:
- 検索入力に基づいてオプションをフィルタリング
- 選択された値で onChange ハンドラーを呼び出す
- 完全なキーボード操作に対応
Elite Coding Prompt テンプレートはさらに進んで、コンテキスト、要件、制約、期待される動作のフィールドを持つ JSON 構造化仕様を出力します。構造化された入力でより良く動作する AI エージェントに渡すのに便利です。
例 4: 意識の流れから To-Do リストへ
あなたが言ったこと:
「15日に期限が切れる前に SSL 証明書を更新する必要がある、それからテンプレートに関するブログ記事は今週中に公開しなければならない、使っていない古い分析サブスクリプションをキャンセルするようにリマインドしてほしい、そしてメインリポジトリの依存関係も古くなる前に更新したほうがいい」
To-Do リストテンプレート適用後:
- SSL 証明書を更新(期限:15日)
- テンプレートブログ記事を公開(今週)
- 使っていない分析サブスクリプションをキャンセル
- メインリポジトリの依存関係を更新
コーヒーを淹れながら話した一文から抽出・整形された4つの項目。
二段階の利点
なぜ一段階ではなく二段階?なぜすべてを AI に送らないのか?
速度と信頼性です。
フィラー除去は即時です。フォーマットなしのきれいなテキストが必要なだけなら、すぐに得られます。待ち時間なしで、意図しない“親切な”再構成が起こることもありません。
テンプレート段階はオプトインです。構造化された出力が必要なときにテンプレートを選び、不要なときはスキップします。つまり、デフォルトの体験は高速で、必要なときに強化された体験が利用できます。
また、AI に渡す入力がよりクリーンになります。テンプレート処理前にフィラーを除去することで、モデルは“えーと、つまり、基本的に”のような言葉を無視するのにトークンを使わず、構造と意味に集中できます。
全13テンプレート
全テンプレートは5つのカテゴリに分かれています:
コア: Super(文法の修正)、Message(カジュアルなチャット形式)、Summary
メール: プロフェッショナル、カジュアル
組織: メモ、会議メモ、やることリスト
内容: ツイート/ソーシャル(Hook-Retain-Rewardフレームワーク使用)、ブログ投稿
コーディング: AIコーディングプロンプト、エリートコーディングプロンプト(JSON構造)、バグレポート
各テンプレートは設定パネルからアクセス可能で、macOSとWindowsの両方でインライン展開デザインを採用しています。
試してみる
Superscribe v0.2.29+でスマートな文字起こしが利用可能になりました。雑に話しかけてみてください。テンプレートを選択。結果を確認しましょう。
話す。追跡する。請求する。
関連資料
実際にもっと簡単に感じたいですか?
次の実際のタスクでSuperscribeを試してみてください
フォローアップ、メモ、メール、クライアント作業に使い、ワークフローに合うか判断してください。
Superscribeを試してみてください