AI工具集办公提效

PushToTalk

一个高性能的桌面语音输入工具,集成了大语言模型(LLM)能力。按住快捷键说话,松开自动转录并插入文本 | AI 智能助手,语音控制一切。

标签:
海外账号影视资源扣子

PushToTalk 是一款面向 Windows 平台的高性能桌面语音输入工具,它基于国产大模型(豆包/千问)提供的实时自动语音识别(ASR)能力,实现了低延迟、高准确率的语音转文字功能,并进一步集成了大语言模型(LLM),支持在转写后进行智能润色、摘要或指令执行。用户只需按住 Ctrl + Win(或自定义快捷键)说话,松开后系统会自动将识别结果粘贴到当前光标所在的文本框,实现“按键即写”的流畅体验。

PushToTalk插图

该项目提供两种主要工作模式:

  • 听写模式——传统的语音转文字,适用于会议纪要、文档撰写等场景;
  • LLM 模式——在转写基础上调用大语言模型进行内容优化或生成,提升写作效率。

核心特性

一、双模式工作

1.听写模式 – 传统的语音转文字功能

  • 按住模式:按住快捷键录音,松开停止(传统方式)
  • 松手模式:按一次 F2 开始录音,再按一次结束(防止误停)

2. AI 助手模式 – 语音控制文本处理

  • 无选中文本:Q&A 模式,提问获得答案
  • 选中文本:语音命令处理文本(翻译、润色、总结、扩写等)

二、核心功能

  1. 实时流式转录 – WebSocket 边录边传,极低延迟(< 500ms),松手即出字
  2. LLM 智能后处理 – 内置”文本润色”、”邮件整理”、”中译英”等预设,支持自定义 Prompt
  3. 自定义快捷键 – 支持 73 种按键绑定(修饰键、字母、数字、功能键、方向键等)
  4. 多 ASR 引擎 – 支持阿里云 Qwen、豆包 Doubao、SiliconFlow SenseVoice
  5. 智能兜底 – 主引擎失败时自动切换到备用引擎,并行竞速
  6. 可视化反馈 – 录音状态悬浮窗,实时波形显示,三种视觉状态
  7. 音频反馈 – 录音开始/结束的清脆提示音,盲操也放心
  8. 历史记录 – 自动保存转录历史,支持搜索、复制、清空
  9. 系统托盘 – 支持最小化到托盘、开机自启动
  10. 自动更新 – 内置 6 个镜像源,自动检查并安装更新
  11. 多配置管理 – 支持保存多套 LLM 预设,通过界面快速切换不同场景

PushToTalk 采用纯本地运行的设计,数据不上传云端,兼顾隐私安全;同时提供开箱即用的二进制发布和源码编译指南,方便开发者二次开发或自行部署。项目在开源社区获得了积极反馈,用户可通过 GitHub 提交 Issue 或 Pull Request 参与改进。

PushToTalk 将语音识别、语言模型与快捷键交互深度融合,为 Windows 用户提供了一站式的语音输入解决方案。

相关导航

暂无评论

暂无评论...