基于 SenseVoice + ONNX Runtime 的实时语音转文本输入法,完全本地运行,无需联网。
从实时语音识别到文件转写,满足各种语音输入场景
长按 CapsLock 开始录音,松开后自动识别,文字实时注入到当前应用中,支持微信、Word、浏览器等。
支持 WAV/MP3/FLAC/OGG 格式,批量处理音频文件,导出为 TXT 文本或 SRT 字幕格式。
基于 ONNX Runtime 本地推理,所有语音数据不会离开您的设备,保护隐私安全。
SenseVoice 模型支持中文、英文、日语、韩语、粤语等多语言自动识别。
长按超过 1 秒触发语音输入,短按正常切换大小写,无缝融入日常操作习惯。
支持深色和浅色界面切换,可自定义字体大小,打造舒适的视觉体验。
简单几步,开始使用语音输入
下载对应平台的压缩包,解压后直接运行,无需安装。
下载 SenseVoice ONNX 模型,在配置页面设置模型路径并保存。
将光标定位到目标应用,长按 CapsLock 说话,松开后文字自动输入。
切换到文件转写页面,选择音频文件,一键转写并导出结果。
高性能、跨平台的技术选型
| 组件 | 技术选型 |
|---|---|
| GUI 框架 | Qt 6(Fusion / Windows 原生风格) |
| 推理引擎 | ONNX Runtime(C++ API) |
| 语音模型 | SenseVoice Small |
| 音频采集 | PortAudio |
| 音频解码 | dr_libs(dr_wav / dr_mp3 / dr_flac) |
| 构建系统 | CMake 3.20+ |
| 配置存储 | nlohmann/json |
| 支持平台 | Windows / Linux |
使用过程中的常见问题解答
请确认:① 模型已加载(状态栏显示"模型已就绪");② 已设置语音快捷键;③ 麦克风正常工作。
某些应用可能拦截模拟按键输入,请尝试在管理员权限下运行本程序。
在配置中增大 ONNX 线程数(建议 2-4),或使用 GPU 版本的 ONNX Runtime。
请确保按键时间小于 1 秒,超过 1 秒会触发语音输入模式。
访问 HuggingFace 模型仓库,下载 model.int8.onnx 和 tokens.txt 两个文件。
完全本地运行,所有语音识别都在您的设备上完成,数据不会上传到任何服务器。