impress_asr_input/models/README.md
impressionyang 7c51542918 Initial commit: Impress ASR Input 项目基础框架
功能:
- 基于 ONNX 的语音识别引擎
- 多语言支持(中文、英文、日语、韩语)
- 模型加载器(支持 SenseVoice/Whisper/Paraformer)
- 音频采集和处理模块(VAD、重采样、归一化)
- 文本输出模块(剪贴板)
- CLI 命令行工具
- Electron GUI 界面
- Windows x64 打包配置

文档:
- PRD 产品需求文档
- README 项目说明
- 开发指南
- Windows 构建指南

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-05-20 16:10:11 +08:00

60 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 模型文件说明
## 支持的模型
本项目支持以下 ONNX 语音识别模型:
### 1. SenseVoice推荐
- **来源**: 阿里达摩院 FunAudioLLM
- **支持语言**: 中文、英文、日语、韩语
- **采样率**: 16000 Hz
- **特点**: 高精度、低延迟、支持多语言混合识别
**下载地址**:
- HuggingFace: https://huggingface.co/FunAudioLLM/SenseVoice
- ModelScope: https://www.modelscope.cn/models/iic/SenseVoiceSmall
### 2. Whisper ONNX
- **来源**: OpenAI
- **支持语言**: 90+ 种语言
- **采样率**: 16000 Hz
- **特点**: 多语言支持最好,准确度高
**下载地址**:
- HuggingFace: https://huggingface.co/onnx-community/whisper-base
### 3. Paraformer
- **来源**: 阿里达摩院
- **支持语言**: 中文
- **采样率**: 16000 Hz
- **特点**: 中文识别优化,速度快
**下载地址**:
- ModelScope: https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punct
## 安装模型
1. 从上述地址下载 ONNX 模型文件
2. 将模型文件放入 `models/` 目录
3. 模型文件命名:
- SenseVoice: `sensevoice.onnx`
- Whisper: `whisper.onnx`
- Paraformer: `paraformer.onnx`
## 模型优先级
当有多个模型文件时,系统按以下优先级加载:
1. sensevoice.onnx最高优先级
2. whisper.onnx
3. paraformer.onnx最低优先级
## 注意事项
- 模型文件较大50MB - 300MB建议单独下载
- 模型文件不会被包含在 Git 仓库中
- 首次运行时需要确保模型文件已就位