|
|
bba124aee4
|
feat: 实现 Whisper ONNX 完整推理管线
新增组件:
- MelSpectrogram: Mel 频谱图提取 (Hann 窗 + FFT + Mel 滤波器组)
- WhisperTokenizer: BPE 分词器 (支持 token 编解码和特殊 token)
核心改进:
- STTEngine 动态检测 ONNX 模型输入/输出名称
- 支持两种模型格式: 直接输出 [1, vocab_size] 和自回归 [1, seq, vocab]
- argmax + softmax 解码 + 置信度计算
- infer() 接口改为 language 参数替代 isStreaming
UI 调整:
- STTTestPage 和 FileTranscribePage 适配新的 infer() 接口
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
|
2026-05-12 16:17:10 +08:00 |
|