|
|
760899e81c
|
feat: 完善推理管线和后台任务管理
核心改进:
- STTEngine 接入 WhisperTokenizer 解码,输出可读文本而非 [T1234]
- 模型加载时自动查找同目录下的 tokenizer.vocab 词表
- language 参数生效,推理时记录语言配置
- 卸载模型时清理 tokenizer 状态
文件转写后台化:
- FileTranscribePage 使用 QtConcurrent 后台线程执行解码+推理
- 模型加载也在后台执行,不阻塞 UI
- processFileAsync() + onTaskComplete() 异步队列处理
- 支持中途停止 (onStopTranscribe)
构建:
- CMake 默认使用 RelWithDebInfo (Release 带调试信息)
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
|
2026-05-12 16:27:36 +08:00 |
|
|
|
e31d51f12d
|
docs: 更新 README 项目状态
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
|
2026-05-12 16:18:07 +08:00 |
|
|
|
bba124aee4
|
feat: 实现 Whisper ONNX 完整推理管线
新增组件:
- MelSpectrogram: Mel 频谱图提取 (Hann 窗 + FFT + Mel 滤波器组)
- WhisperTokenizer: BPE 分词器 (支持 token 编解码和特殊 token)
核心改进:
- STTEngine 动态检测 ONNX 模型输入/输出名称
- 支持两种模型格式: 直接输出 [1, vocab_size] 和自回归 [1, seq, vocab]
- argmax + softmax 解码 + 置信度计算
- infer() 接口改为 language 参数替代 isStreaming
UI 调整:
- STTTestPage 和 FileTranscribePage 适配新的 infer() 接口
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
|
2026-05-12 16:17:10 +08:00 |
|
|
|
09074a71fe
|
docs: 添加第三方依赖部署指南
详细说明各依赖库的下载来源、编译方法和验证步骤,
包含快速部署脚本。
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
|
2026-05-12 16:00:52 +08:00 |
|
|
|
02e100b318
|
feat: 初始化 Impress Voice Input 项目
基于 ONNX 的实时语音转文本输入法,C++ 跨平台实现。
核心组件:
- Qt 6 跨平台 GUI(实时识别 / 文件转写 / 配置页面)
- ONNX Runtime 推理引擎(异步模型加载)
- PortAudio 音频采集
- dr_libs 音频文件解码
- JSON 配置管理(线程安全,自动持久化)
- 日志系统(控制台 + 文件输出)
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
|
2026-05-12 15:53:05 +08:00 |
|