智能转录:你停止说话后会发生什么
大多数语音转文字应用在你停止说话的那一刻就停止工作。你得到的是一堆原始文本,里面包含每一个“嗯”、每一次语无伦次、每一句没说完的话。然后你得自己去整理。
Superscribe 的智能转录流程改变了这一点。它将原始语音经过两个阶段处理:即时填充词去除,然后是基于人工智能的模板格式化。结果是你可以直接使用的输出,无需编辑。
工作原理如下。
阶段1:填充词去除(即时)
第一阶段在音频转录的瞬间发生。在任何人工智能处理文本之前,填充词会被立即剔除。
这不是语言模型对保留内容的判断,而是模式匹配。快速、可预测且彻底。
去除内容包括:
- 填充词:“嗯”,“呃”,“嗯哼”,“像”,“你知道”,“基本上”
- 99多种语言的特定填充词:德语“äh”,法语“euh”,爱沙尼亚语“noh”,西班牙语“pues”,以及更多
- 重复词:“the the”,“I I”,“so so”
- 去除后遗留的标点符号问题(孤立的逗号、双空格、尾随句点)
关键细节:这不会增加任何延迟。它作为纯文本转换运行,无需网络调用,无需模型推理。当你看到转录结果时,填充词已经被去除。
对于许多使用场景来说,这已经足够。你说话,填充词消失,得到干净的文本。完成。
但有时你需要的不仅是干净的文本。你需要格式化的输出。
阶段2:人工智能模板处理
这时就用到13种输出模板。选择一个模板,人工智能模型会将你清理过的转录文本重新整理成特定的文档格式。
处理过程会识别情感。它不仅读取你说的词语,还能感知语气和意图。一个带有挫败感的错误报告依然保持挫败感。一个随意的信息依然保持随意。AI会重新格式化,但不会抹平你的声音。
运行时会出现一个加载动画,让你知道正在处理。根据模板和内容长度,处理时间为几秒钟。
让我们通过真实示例来看看实际效果。
示例1:原始口述转专业邮件
你说了什么:
“嘿,我想和客户实时沟通一下标志设计,第二轮已经完成,我觉得B选项最强,但我们应该让他们决定,同时需要提一下因为他们反馈延迟,时间线大约推迟了一周”
去除填充词后:
“嘿,我想和客户实时沟通一下标志设计,第二轮已经完成,我觉得B选项最强,但我们应该让他们决定,同时需要提一下因为他们反馈延迟,时间线大约推迟了一周”
应用专业邮件模板后:
主题:标志设计更新 - 第二轮完成
您好,[Client],
第二轮标志设计已完成。在呈现的选项中,B选项是最有力的方向,但我们希望在继续之前听取您的意见。
关于时间线的简要说明:由于上一轮反馈延迟,进度大约推迟了一周。我们会另行发送更新的项目时间表。
请您尽快告知对设计的看法。
此致敬礼
一次口述,无需编辑,准备发送。
示例2:头脑风暴记录转会议纪要
你说了什么:
“好的,今天站会时Marcus说API集成被阻塞了,因为第三方文档有误,Sarah正在完成入职流程,预计周四完成,我们同意将发布从3月1日推迟到3月8日,因为API问题,哦,还有我们需要预订周五客户演示的演示室”
会后笔记模板:
会议笔记
与会者: Marcus,Sarah
更新:
- API集成因第三方文档错误被阻塞(Marcus)
- 入职流程进展顺利,预计周四完成(Sarah)
决策:
- 因API集成阻塞,发布从3月1日推迟到3月8日
行动事项:
- 预订周五客户演示的演示室
该模板识别了与会者,区分了更新和决策,并提取了行动项。所有内容均来自大约20秒的单次意识流整理。
示例3:编码 - 来自语音的AI提示
这对开发者来说更有趣。AI编码提示模板将你口头描述的构建需求结构化为一个提示,可以直接粘贴到AI编码助手中。
你说了什么:
“我需要一个React组件,显示带搜索过滤的下拉菜单,接受一个选项数组作为props,输入时高亮匹配文本,选择时调用onChange处理函数,还支持用箭头键导航和回车键选择”
AI编码提示模板结果:
创建一个满足以下要求的React组件:
组件: SearchableDropdown
Props:
- options:可选项数组
- onChange:选择时触发的回调函数
功能:
- 带搜索/过滤输入的下拉菜单
- 输入时高亮显示匹配的选项文本
- 键盘导航(箭头键导航,回车键选择)
行为:
- 根据搜索输入筛选选项
- 调用 onChange 处理函数并传入选中的值
- 支持完整键盘无障碍操作
Elite Coding Prompt 模板更进一步,输出一个 JSON 结构化规范,包含上下文、需求、限制和预期行为字段。适合用于需要结构化输入的 AI 代理。
示例 4:意识流转待办事项列表
你说了什么:
“我需要在 15 号之前续订 SSL 证书,博客关于模板的文章本周需要发布,提醒我取消我们不再使用的旧分析订阅,我还应该在依赖变得过时之前更新主仓库的依赖”
使用待办事项模板后:
- 续订 SSL 证书(截止日期:15 号)
- 发布模板博客文章(本周)
- 取消未使用的分析订阅
- 更新主仓库依赖
从你一边泡咖啡一边说的一句话中提取并格式化出的四条事项。
两阶段优势
为什么要两阶段而不是一步到位?为什么不直接把所有内容发给 AI?
速度和可靠性。
填充词去除是即时完成的。如果你只需要无格式的纯文本,立刻就能得到。无需等待,也不会出现 AI “好心”地重构你想保留的内容的情况。
模板阶段是可选的。需要结构化输出时选择模板,不需要时跳过。这样默认体验快速,增强体验随时可用。
这也意味着 AI 得到更干净的输入。先去除填充词再进行模板处理,模型能把计算资源用在结构和意义上,而不是搞清楚“呃,那个,基本上”这类词应该被忽略。
全部 13 个模板
完整模板涵盖五个类别:
核心: 超级(语法清理)、消息(随意聊天格式)、摘要
电子邮件: 专业,随意
组织: 笔记,会议记录,待办事项列表
内容: 推文/社交(使用钩子-保留-奖励框架)、博客文章
编码: AI 编码提示,精英编码提示(JSON 结构化),错误报告
每个模板都可以从设置面板访问,设置面板现在在 macOS 和 Windows 上采用内联展开设计。
试用一下
智能转录现已在 Superscribe v0.2.29+ 中提供。说出一些凌乱的内容。选择一个模板。看看结果如何。
在 superscribe.io 获取 Superscribe
说话。跟踪。计费。