新增组件: - MelSpectrogram: Mel 频谱图提取 (Hann 窗 + FFT + Mel 滤波器组) - WhisperTokenizer: BPE 分词器 (支持 token 编解码和特殊 token) 核心改进: - STTEngine 动态检测 ONNX 模型输入/输出名称 - 支持两种模型格式: 直接输出 [1, vocab_size] 和自回归 [1, seq, vocab] - argmax + softmax 解码 + 置信度计算 - infer() 接口改为 language 参数替代 isStreaming UI 调整: - STTTestPage 和 FileTranscribePage 适配新的 infer() 接口 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com> |
||
|---|---|---|
| .. | ||
| app | ||
| audio | ||
| core | ||
| ui | ||
| utils | ||
| main.cpp | ||