impress_voice_input

6 Commits 1 Branch 2 Tags 2.1 MiB

Author	SHA1	Message	Date
impressionyang	59c12ab931	feat: 扩展音频格式支持与推理管线优化 - 新增 MP3/FLAC 格式解码 (dr_mp3/dr_flac) - 修复 Mel 频谱图使用 magnitude² 替代 magnitude 的问题 - 推理管线增加音频重采样 (非 16kHz 自动转换) - 更新 README 项目状态 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-05-12 16:35:48 +08:00
impressionyang	760899e81c	feat: 完善推理管线和后台任务管理核心改进: - STTEngine 接入 WhisperTokenizer 解码，输出可读文本而非 [T1234] - 模型加载时自动查找同目录下的 tokenizer.vocab 词表 - language 参数生效，推理时记录语言配置 - 卸载模型时清理 tokenizer 状态文件转写后台化: - FileTranscribePage 使用 QtConcurrent 后台线程执行解码+推理 - 模型加载也在后台执行，不阻塞 UI - processFileAsync() + onTaskComplete() 异步队列处理 - 支持中途停止 (onStopTranscribe) 构建: - CMake 默认使用 RelWithDebInfo (Release 带调试信息) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-05-12 16:27:36 +08:00
impressionyang	e31d51f12d	docs: 更新 README 项目状态 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-05-12 16:18:07 +08:00
impressionyang	bba124aee4	feat: 实现 Whisper ONNX 完整推理管线新增组件: - MelSpectrogram: Mel 频谱图提取 (Hann 窗 + FFT + Mel 滤波器组) - WhisperTokenizer: BPE 分词器 (支持 token 编解码和特殊 token) 核心改进: - STTEngine 动态检测 ONNX 模型输入/输出名称 - 支持两种模型格式: 直接输出 [1, vocab_size] 和自回归 [1, seq, vocab] - argmax + softmax 解码 + 置信度计算 - infer() 接口改为 language 参数替代 isStreaming UI 调整: - STTTestPage 和 FileTranscribePage 适配新的 infer() 接口 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-05-12 16:17:10 +08:00
impressionyang	09074a71fe	docs: 添加第三方依赖部署指南详细说明各依赖库的下载来源、编译方法和验证步骤，包含快速部署脚本。 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-05-12 16:00:52 +08:00
impressionyang	02e100b318	feat: 初始化 Impress Voice Input 项目基于 ONNX 的实时语音转文本输入法，C++ 跨平台实现。核心组件： - Qt 6 跨平台 GUI（实时识别 / 文件转写 / 配置页面） - ONNX Runtime 推理引擎（异步模型加载） - PortAudio 音频采集 - dr_libs 音频文件解码 - JSON 配置管理（线程安全，自动持久化） - 日志系统（控制台 + 文件输出） Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-05-12 15:53:05 +08:00