impress_voice_input/src
impressionyang bba124aee4 feat: 实现 Whisper ONNX 完整推理管线
新增组件:
- MelSpectrogram: Mel 频谱图提取 (Hann 窗 + FFT + Mel 滤波器组)
- WhisperTokenizer: BPE 分词器 (支持 token 编解码和特殊 token)

核心改进:
- STTEngine 动态检测 ONNX 模型输入/输出名称
- 支持两种模型格式: 直接输出 [1, vocab_size] 和自回归 [1, seq, vocab]
- argmax + softmax 解码 + 置信度计算
- infer() 接口改为 language 参数替代 isStreaming

UI 调整:
- STTTestPage 和 FileTranscribePage 适配新的 infer() 接口

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-05-12 16:17:10 +08:00
..
app feat: 初始化 Impress Voice Input 项目 2026-05-12 15:53:05 +08:00
audio feat: 初始化 Impress Voice Input 项目 2026-05-12 15:53:05 +08:00
core feat: 实现 Whisper ONNX 完整推理管线 2026-05-12 16:17:10 +08:00
ui feat: 实现 Whisper ONNX 完整推理管线 2026-05-12 16:17:10 +08:00
utils feat: 初始化 Impress Voice Input 项目 2026-05-12 15:53:05 +08:00
main.cpp feat: 初始化 Impress Voice Input 项目 2026-05-12 15:53:05 +08:00