功能: - 基于 ONNX 的语音识别引擎 - 多语言支持(中文、英文、日语、韩语) - 模型加载器(支持 SenseVoice/Whisper/Paraformer) - 音频采集和处理模块(VAD、重采样、归一化) - 文本输出模块(剪贴板) - CLI 命令行工具 - Electron GUI 界面 - Windows x64 打包配置 文档: - PRD 产品需求文档 - README 项目说明 - 开发指南 - Windows 构建指南 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
1.5 KiB
1.5 KiB
模型文件说明
支持的模型
本项目支持以下 ONNX 语音识别模型:
1. SenseVoice(推荐)
- 来源: 阿里达摩院 FunAudioLLM
- 支持语言: 中文、英文、日语、韩语
- 采样率: 16000 Hz
- 特点: 高精度、低延迟、支持多语言混合识别
下载地址:
- HuggingFace: https://huggingface.co/FunAudioLLM/SenseVoice
- ModelScope: https://www.modelscope.cn/models/iic/SenseVoiceSmall
2. Whisper ONNX
- 来源: OpenAI
- 支持语言: 90+ 种语言
- 采样率: 16000 Hz
- 特点: 多语言支持最好,准确度高
下载地址:
- HuggingFace: https://huggingface.co/onnx-community/whisper-base
3. Paraformer
- 来源: 阿里达摩院
- 支持语言: 中文
- 采样率: 16000 Hz
- 特点: 中文识别优化,速度快
下载地址:
安装模型
- 从上述地址下载 ONNX 模型文件
- 将模型文件放入
models/目录 - 模型文件命名:
- SenseVoice:
sensevoice.onnx - Whisper:
whisper.onnx - Paraformer:
paraformer.onnx
- SenseVoice:
模型优先级
当有多个模型文件时,系统按以下优先级加载:
- sensevoice.onnx(最高优先级)
- whisper.onnx
- paraformer.onnx(最低优先级)
注意事项
- 模型文件较大(50MB - 300MB),建议单独下载
- 模型文件不会被包含在 Git 仓库中
- 首次运行时需要确保模型文件已就位