PushToTalk 是一款面向 Windows 平台的高性能桌面语音输入工具,它基于国产大模型(豆包/千问)提供的实时自动语音识别(ASR)能力,实现了低延迟、高准确率的语音转文字功能,并进一步集成了大语言模型(LLM),支持在转写后进行智能润色、摘要或指令执行。用户只需按住 Ctrl + Win(或自定义快捷键)说话,松开后系统会自动将识别结果粘贴到当前光标所在的文本框,实现“按键即写”的流畅体验。
- PushToTalk开源项目官网网址:https://github.com/yyyzl/push-2-talk
- PushToTalk官方下载地址:https://github.com/yyyzl/push-2-talk/releases

该项目提供两种主要工作模式:
- 听写模式——传统的语音转文字,适用于会议纪要、文档撰写等场景;
- LLM 模式——在转写基础上调用大语言模型进行内容优化或生成,提升写作效率。
核心特性
一、双模式工作
1.听写模式 – 传统的语音转文字功能
- 按住模式:按住快捷键录音,松开停止(传统方式)
- 松手模式:按一次 F2 开始录音,再按一次结束(防止误停)
2. AI 助手模式 – 语音控制文本处理
- 无选中文本:Q&A 模式,提问获得答案
- 选中文本:语音命令处理文本(翻译、润色、总结、扩写等)
二、核心功能
- 实时流式转录 – WebSocket 边录边传,极低延迟(< 500ms),松手即出字
- LLM 智能后处理 – 内置”文本润色”、”邮件整理”、”中译英”等预设,支持自定义 Prompt
- 自定义快捷键 – 支持 73 种按键绑定(修饰键、字母、数字、功能键、方向键等)
- 多 ASR 引擎 – 支持阿里云 Qwen、豆包 Doubao、SiliconFlow SenseVoice
- 智能兜底 – 主引擎失败时自动切换到备用引擎,并行竞速
- 可视化反馈 – 录音状态悬浮窗,实时波形显示,三种视觉状态
- 音频反馈 – 录音开始/结束的清脆提示音,盲操也放心
- 历史记录 – 自动保存转录历史,支持搜索、复制、清空
- 系统托盘 – 支持最小化到托盘、开机自启动
- 自动更新 – 内置 6 个镜像源,自动检查并安装更新
- 多配置管理 – 支持保存多套 LLM 预设,通过界面快速切换不同场景
PushToTalk 采用纯本地运行的设计,数据不上传云端,兼顾隐私安全;同时提供开箱即用的二进制发布和源码编译指南,方便开发者二次开发或自行部署。项目在开源社区获得了积极反馈,用户可通过 GitHub 提交 Issue 或 Pull Request 参与改进。
PushToTalk 将语音识别、语言模型与快捷键交互深度融合,为 Windows 用户提供了一站式的语音输入解决方案。
相关导航
暂无评论...



