功能: - 基于 ONNX 的语音识别引擎 - 多语言支持(中文、英文、日语、韩语) - 模型加载器(支持 SenseVoice/Whisper/Paraformer) - 音频采集和处理模块(VAD、重采样、归一化) - 文本输出模块(剪贴板) - CLI 命令行工具 - Electron GUI 界面 - Windows x64 打包配置 文档: - PRD 产品需求文档 - README 项目说明 - 开发指南 - Windows 构建指南 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
60 lines
1.5 KiB
Markdown
60 lines
1.5 KiB
Markdown
# 模型文件说明
|
||
|
||
## 支持的模型
|
||
|
||
本项目支持以下 ONNX 语音识别模型:
|
||
|
||
### 1. SenseVoice(推荐)
|
||
|
||
- **来源**: 阿里达摩院 FunAudioLLM
|
||
- **支持语言**: 中文、英文、日语、韩语
|
||
- **采样率**: 16000 Hz
|
||
- **特点**: 高精度、低延迟、支持多语言混合识别
|
||
|
||
**下载地址**:
|
||
- HuggingFace: https://huggingface.co/FunAudioLLM/SenseVoice
|
||
- ModelScope: https://www.modelscope.cn/models/iic/SenseVoiceSmall
|
||
|
||
### 2. Whisper ONNX
|
||
|
||
- **来源**: OpenAI
|
||
- **支持语言**: 90+ 种语言
|
||
- **采样率**: 16000 Hz
|
||
- **特点**: 多语言支持最好,准确度高
|
||
|
||
**下载地址**:
|
||
- HuggingFace: https://huggingface.co/onnx-community/whisper-base
|
||
|
||
### 3. Paraformer
|
||
|
||
- **来源**: 阿里达摩院
|
||
- **支持语言**: 中文
|
||
- **采样率**: 16000 Hz
|
||
- **特点**: 中文识别优化,速度快
|
||
|
||
**下载地址**:
|
||
- ModelScope: https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punct
|
||
|
||
## 安装模型
|
||
|
||
1. 从上述地址下载 ONNX 模型文件
|
||
2. 将模型文件放入 `models/` 目录
|
||
3. 模型文件命名:
|
||
- SenseVoice: `sensevoice.onnx`
|
||
- Whisper: `whisper.onnx`
|
||
- Paraformer: `paraformer.onnx`
|
||
|
||
## 模型优先级
|
||
|
||
当有多个模型文件时,系统按以下优先级加载:
|
||
|
||
1. sensevoice.onnx(最高优先级)
|
||
2. whisper.onnx
|
||
3. paraformer.onnx(最低优先级)
|
||
|
||
## 注意事项
|
||
|
||
- 模型文件较大(50MB - 300MB),建议单独下载
|
||
- 模型文件不会被包含在 Git 仓库中
|
||
- 首次运行时需要确保模型文件已就位
|