Commit Graph

8 Commits

Author SHA1 Message Date
impressionyang
f2776e24d7 docs: README 添加模型下载说明与图示
- 提供 HuggingFace 模型仓库链接
- 说明需下载 model.int8.onnx 和 tokens.txt 两个文件
- 添加模型下载图示

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-06-12 13:58:02 +08:00
impressionyang
231543476b docs: 完善 README 使用说明
- 添加下载安装、快速开始、使用说明、快捷键、CapsLock 工作模式
- 补充语音输入和文件转写详细流程
- 添加系统托盘、状态栏说明和常见问题
- 更新 License 为 GPLv3
- 完善项目结构、技术栈、编译指南和命令行参数

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-06-12 10:49:21 +08:00
9a6dfa3b88 feat: 集成 SenseVoice 完整推理管线
- 新增 SenseVoiceEngine: 专用 SenseVoice ONNX 模型推理引擎
- 新增 SenseVoiceFeatures: Fbank 特征提取 + LFR 拼接 + CMVN 归一化
  - 80-dim Mel 滤波器组 + 对数压缩
  - LFR (Low Frame Rate): window_size=7, window_shift=6 → 560-dim
  - CMVN: neg_mean / inv_stddev 从模型元数据自动提取
- 新增 SenseVoiceTokenizer: 加载 tokens.txt 词表,BPE 解码
- 新增 CTC 贪婪解码: 去除重复 token 和空白符
- 配置页面新增词表路径选择
- STT 测试页面和文件转写页面切换至 SenseVoiceEngine
- 更新 CMakeLists.txt 包含所有新增源文件
- 模型: /home/alvin/Documents/SenseVoice-Small/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17/model.onnx
- 语言支持: 中文/英语/日语/韩语/粤语 自动检测

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-05-12 19:26:11 +08:00
49313f15f9 feat: 完善文件转写导出功能 (TXT/SRT/JSON)
- 修复导出功能:SRT/JSON 格式直接输出纯文本的 bug
- 新增 SRT 导出:按句子分段,均匀分配时间戳,支持字幕格式
- 新增 JSON 导出:结构化数据,包含文件信息、时长、采样率等元数据
- 新增 TXT 导出:包含文件信息和音频参数的格式化文本
- 记录音频文件信息 (时长/采样率/声道数) 用于导出

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-05-12 19:00:55 +08:00
84cc5bbc22 docs: 更新 README 项目状态 (VAD + 单元测试)
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-05-12 16:58:15 +08:00
59c12ab931 feat: 扩展音频格式支持与推理管线优化
- 新增 MP3/FLAC 格式解码 (dr_mp3/dr_flac)
- 修复 Mel 频谱图使用 magnitude² 替代 magnitude 的问题
- 推理管线增加音频重采样 (非 16kHz 自动转换)
- 更新 README 项目状态

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-05-12 16:35:48 +08:00
e31d51f12d docs: 更新 README 项目状态
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-05-12 16:18:07 +08:00
02e100b318 feat: 初始化 Impress Voice Input 项目
基于 ONNX 的实时语音转文本输入法,C++ 跨平台实现。

核心组件:
- Qt 6 跨平台 GUI(实时识别 / 文件转写 / 配置页面)
- ONNX Runtime 推理引擎(异步模型加载)
- PortAudio 音频采集
- dr_libs 音频文件解码
- JSON 配置管理(线程安全,自动持久化)
- 日志系统(控制台 + 文件输出)

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-05-12 15:53:05 +08:00