【开源】PushToTalk 实现秒级语音转写与 LLM 智能后处理

2025-12-15

源码地址

yyyzl/push-2-talk: 按住说话

欢迎大家试用并提出反馈。如果觉得有用，欢迎点个支持。

界面截图

功能介绍

PushToTalk 是一款高性能的桌面语音输入工具。它不仅实现语音转文字，还集成了大语言模型（LLM）能力。按住 Ctrl+Win 进行录音，松手后应用会将语音转写为文本，并根据用户设定自动执行润色、翻译或整理为邮件等操作，最后将结果粘贴到当前光标位置。

语音识别主驱动为 qwen-asr-flash；在识别耗时较长或主通道不可用时，会自动切换到 SiliconFlow 的 SenseVoice 作为备用。文本润色兼容 OpenAI 的请求格式，推荐使用 glm4flash（速度非常快且免费），在多数情况下润色耗时约 0.5 到 1 秒。

核心特性

支持实时流式与 HTTP 转录 — 支持通过 WebSocket 边录边传，延迟极低，松手即可看到文字输出。
LLM 智能后处理 — 内置“文本润色”“邮件整理”“中译英”等预设，并支持自定义 Prompt 以满足不同场景需求。
全局快捷键 — 在任何应用（包括全屏游戏或 IDE）中按住 Ctrl+Win 即可录音，使用便捷。
双模引擎与自动切换 — 默认使用 Qwen Realtime 引擎，网络不佳时自动降级为 HTTP 模式，并可使用 SiliconFlow (SenseVoice) 作为备用通道。
音频反馈 — 录音开始和结束时提供清晰提示音，便于盲操作。
多配置管理 — 支持保存多套 LLM 预设，通过界面可快速切换不同场景配置。

亲测可用：一套可直接放入 system prompt 的 Gemini 3 破限提示词

发表评论取消回复