impress_asr_input/models/README.md
impressionyang 7c51542918 Initial commit: Impress ASR Input 项目基础框架
功能:
- 基于 ONNX 的语音识别引擎
- 多语言支持(中文、英文、日语、韩语)
- 模型加载器(支持 SenseVoice/Whisper/Paraformer)
- 音频采集和处理模块(VAD、重采样、归一化)
- 文本输出模块(剪贴板)
- CLI 命令行工具
- Electron GUI 界面
- Windows x64 打包配置

文档:
- PRD 产品需求文档
- README 项目说明
- 开发指南
- Windows 构建指南

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-05-20 16:10:11 +08:00

1.5 KiB
Raw Blame History

模型文件说明

支持的模型

本项目支持以下 ONNX 语音识别模型:

1. SenseVoice推荐

  • 来源: 阿里达摩院 FunAudioLLM
  • 支持语言: 中文、英文、日语、韩语
  • 采样率: 16000 Hz
  • 特点: 高精度、低延迟、支持多语言混合识别

下载地址:

2. Whisper ONNX

  • 来源: OpenAI
  • 支持语言: 90+ 种语言
  • 采样率: 16000 Hz
  • 特点: 多语言支持最好,准确度高

下载地址:

3. Paraformer

  • 来源: 阿里达摩院
  • 支持语言: 中文
  • 采样率: 16000 Hz
  • 特点: 中文识别优化,速度快

下载地址:

安装模型

  1. 从上述地址下载 ONNX 模型文件
  2. 将模型文件放入 models/ 目录
  3. 模型文件命名:
    • SenseVoice: sensevoice.onnx
    • Whisper: whisper.onnx
    • Paraformer: paraformer.onnx

模型优先级

当有多个模型文件时,系统按以下优先级加载:

  1. sensevoice.onnx最高优先级
  2. whisper.onnx
  3. paraformer.onnx最低优先级

注意事项

  • 模型文件较大50MB - 300MB建议单独下载
  • 模型文件不会被包含在 Git 仓库中
  • 首次运行时需要确保模型文件已就位