PushToTalk

AI工具集办公提效

PushToTalk

一个高性能的桌面语音输入工具，集成了大语言模型（LLM）能力。按住快捷键说话，松开自动转录并插入文本 | AI 智能助手，语音控制一切。

标签：办公提效PushToTalk 语音输入工具

链接直达手机查看

启梦AI

GPT

PushToTalk 是一款面向 Windows 平台的高性能桌面语音输入工具，它基于国产大模型（豆包/千问）提供的实时自动语音识别（ASR）能力，实现了低延迟、高准确率的语音转文字功能，并进一步集成了大语言模型（LLM），支持在转写后进行智能润色、摘要或指令执行。用户只需按住 Ctrl + Win（或自定义快捷键）说话，松开后系统会自动将识别结果粘贴到当前光标所在的文本框，实现“按键即写”的流畅体验。

PushToTalk开源项目官网网址：https://github.com/yyyzl/push-2-talk
PushToTalk官方下载地址：https://github.com/yyyzl/push-2-talk/releases

PushToTalk插图

该项目提供两种主要工作模式：

听写模式——传统的语音转文字，适用于会议纪要、文档撰写等场景；
LLM 模式——在转写基础上调用大语言模型进行内容优化或生成，提升写作效率。

核心特性

一、双模式工作

1.听写模式 – 传统的语音转文字功能

按住模式：按住快捷键录音，松开停止（传统方式）
松手模式：按一次 F2 开始录音，再按一次结束（防止误停）

2. AI 助手模式 – 语音控制文本处理

无选中文本：Q&A 模式，提问获得答案
选中文本：语音命令处理文本（翻译、润色、总结、扩写等）

二、核心功能

实时流式转录 – WebSocket 边录边传，极低延迟（< 500ms），松手即出字
LLM 智能后处理 – 内置”文本润色”、”邮件整理”、”中译英”等预设，支持自定义 Prompt
自定义快捷键 – 支持 73 种按键绑定（修饰键、字母、数字、功能键、方向键等）
多 ASR 引擎 – 支持阿里云 Qwen、豆包 Doubao、SiliconFlow SenseVoice
智能兜底 – 主引擎失败时自动切换到备用引擎，并行竞速
可视化反馈 – 录音状态悬浮窗，实时波形显示，三种视觉状态
音频反馈 – 录音开始/结束的清脆提示音，盲操也放心
历史记录 – 自动保存转录历史，支持搜索、复制、清空
系统托盘 – 支持最小化到托盘、开机自启动
自动更新 – 内置 6 个镜像源，自动检查并安装更新
多配置管理 – 支持保存多套 LLM 预设，通过界面快速切换不同场景

PushToTalk 采用纯本地运行的设计，数据不上传云端，兼顾隐私安全；同时提供开箱即用的二进制发布和源码编译指南，方便开发者二次开发或自行部署。项目在开源社区获得了积极反馈，用户可通过 GitHub 提交 Issue 或 Pull Request 参与改进。

PushToTalk 将语音识别、语言模型与快捷键交互深度融合，为 Windows 用户提供了一站式的语音输入解决方案。

相关导航

LazyTyper

LazyTyper是一款基于Whisper的免费语音输入应用，准确率高达90%，速度超快且体积小巧。它完美支持中英日韩等多语言无缝混合输入，让沟通更高效。

秘塔回响

秘塔回响

一款由秘塔科技推出的免费AI语音输入法，主打“无需打字，言出法随”的理念。能够在0.5秒内将用户的语音极速转换为清晰、可用的文字，并实时整理成可直接发送的消息、邮件或文档。

鼎斯韦AI工具箱

鼎斯韦AI工具箱

基于 AI 大模型的智能助手，提供音视频分析、待办清单任务管理、AI 搜索、AI 对话、Prompt 模板管理等产品和服务，是您称手的AI工具箱。

AskManyAI

AskManyAI是一个集成了多种顶尖AI模型的多功能工具平台，该平台整合了超过10万个AI模型，覆盖了文本生成、图像处理、数据分析、语音合成等多种功能。

Julius

Julius AI 是一款基于人工智能的数据分析工具，旨在帮助用户快速处理复杂数据、生成洞察并优化决策流程。

AI公司名称生成器

AI公司名称生成器

AI在线生成企业名称

豆包AI-免费全能AI助手

免费领流量卡-运营商官方正规

免费AI图片生成工具豆包AI云盘-不限速 Trae免费AI编程工具百度网盘超级会员优惠讯飞龙虾AstronClaw 字节ArkClaw-OpenClaw 办公小浣-AI智能助手婚恋风险报告查询!

暂无评论

暂无评论...