【开源】PushToTalk 实现秒级语音转写与 LLM 智能后处理

源码地址

yyyzl/push-2-talk: 按住说话

欢迎大家试用并提出反馈。如果觉得有用,欢迎点个:sparkles:支持。

界面截图

image

功能介绍

PushToTalk 是一款高性能的桌面语音输入工具。它不仅实现语音转文字,还集成了大语言模型(LLM)能力。按住 Ctrl+Win 进行录音,松手后应用会将语音转写为文本,并根据用户设定自动执行润色、翻译或整理为邮件等操作,最后将结果粘贴到当前光标位置。

语音识别主驱动为 qwen-asr-flash;在识别耗时较长或主通道不可用时,会自动切换到 SiliconFlow 的 SenseVoice 作为备用。文本润色兼容 OpenAI 的请求格式,推荐使用 glm4flash(速度非常快且免费),在多数情况下润色耗时约 0.5 到 1 秒。

:sparkles: 核心特性

  • :high_voltage: 支持实时流式与 HTTP 转录 — 支持通过 WebSocket 边录边传,延迟极低,松手即可看到文字输出。
  • :brain: LLM 智能后处理 — 内置“文本润色”“邮件整理”“中译英”等预设,并支持自定义 Prompt 以满足不同场景需求。
  • :microphone: 全局快捷键 — 在任何应用(包括全屏游戏或 IDE)中按住 Ctrl+Win 即可录音,使用便捷。
  • :counterclockwise_arrows_button: 双模引擎与自动切换 — 默认使用 Qwen Realtime 引擎,网络不佳时自动降级为 HTTP 模式,并可使用 SiliconFlow (SenseVoice) 作为备用通道。
  • :speaker_high_volume: 音频反馈 — 录音开始和结束时提供清晰提示音,便于盲操作。
  • :floppy_disk: 多配置管理 — 支持保存多套 LLM 预设,通过界面可快速切换不同场景配置。

发表评论