Edge-TTS 是一个基于微软 Azure 文本转语音(TTS)功能的 Python 库,旨在为开发者提供简单、高效、免费的文本转语音解决方案。
GPT-SoVITS 是一款创新的开源声音克隆工具,它将 GPT 模型与 SoVITS 技术相结合,能够在样本数据极少的情况下,实现高质量的语音克隆和文本到语音转换(TTS)。
Fish Speech 是一个由 Fish Audio 团队开发的文本转语音(TTS)技术,旨在利用先进的机器学习和深度学习技术将文字转换为自然流畅的语音输出。
百度飞桨(PaddlePaddle)平台上的一个开源语音处理工具包,旨在为语音识别、语音合成、语音翻译、语音识别、语音分类、语音标点恢复、语音情感分析等任务提供全面的解决方案。
Xinference 是一个功能强大且功能全面的分布式推理框架,旨在简化大语言模型(LLM)、语音识别、多模态模型等多种AI模型的推理任务。
DroidRun 是一个开源框架,旨在通过自然语言命令控制 Android 设备,实现移动设备的自动化操作。
Browser Use 是一款专为大语言模型设计的智能浏览器工具。它是将 AI 智能体与浏览器连接起来的最简单方式,通过提供强大且简单的浏览器自动化接口,让 AI 智能体能够访问各类网站。
olmOCR是一个用于将PDF、图像等基于图像的文档转换为可读、纯文本格式的工具。
一个完全本地运行的 AI 助手,旨在替代传统云端 AI 服务,提供多种功能,包括智能网页浏览、代码编写、任务规划、语音交互等,支持多种编程语言和多语言支持。
MCP Feedback Enhanced 是一个基于 Model Context Protocol(MCP)的反馈驱动开发工具,旨在通过用户确认而非推测操作,优化AI交互流程,提升开发效率。
awesome-llm-apps 是一个开源项目集合,旨在展示如何利用先进语言模型(如 RAG 和 AI 代理)构建实用应用程序。
Gemini CLI 是一个开源的 AI 代理工具,由 Google 开发,旨在将 Gemini 模型的强大功能直接集成到开发者的终端中 。
小智 AI 聊天机器人是一款基于开源硬件和开源软件的智能对话设备,旨在帮助用户入门 AI 硬件开发和 AI 模型应用。
WeKnora是一款基于大语言模型的文档理解与语义检索框架,专为结构复杂、内容异构的文档场景而打造。
Coze Studio 是由字节跳动开发并开源的一站式 AI Agent 开发工具,旨在为开发者提供从开发到部署的全方位支持,帮助他们快速构建和调试智能体、应用和工作流 。
PoloAPI 是一个专注于大模型 API 聚合服务的平台,旨在帮助开发者和企业快速接入和使用多种 AI 模型,如 Claude、OpenAI、Gemini 等。
EmotiVoice是一个强大的开源TTS引擎,完全免费,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。
MotionAgent是一个能将用户创造的剧本生成视频的深度学习模型工具。用户通过我们提供的工具组合,进行剧本创作、剧照生成、图片/视频生成、背景音乐谱写等工作。
DreamTalk是一个基于扩散模型的音频驱动表达性头部生成框架,核心功能是将静态人物照片转化为逼真、富有表现力的说话视频。
AniPortrait 是腾讯游戏智迹团队开发的一款创新的音频驱动肖像动画生成框架,能够通过音频和参考肖像图像生成高质量的动态视频。
IDM-VTON是一款基于深度学习和扩散模型的虚拟试衣技术,旨在通过高保真度的图像生成实现逼真的虚拟试穿效果。
Diffutoon 是一种基于扩散模型的高分辨率可编辑卡通着色技术,其核心功能是将真实视频转换为动漫风格,同时保持内容的一致性和高质量。
MindSearch是一款由上海人工智能实验室联合研发的开源AI搜索引擎框架,旨在通过模仿人类的思维过程,高效地处理复杂信息搜集与整合任务。
Midscene.js 是一个基于人工智能(AI)技术的自动化 SDK,旨在简化用户界面(UI)自动化测试流程,提高测试效率和准确性。
易于上手的多平台聊天机器人及开发框架。松耦合 / 异步 / 多消息平台部署 / 易用的插件系统 / 完善的大语言模型(LLM)接入
FireRedTTS是一款由小红书技术团队开发的基于大语言模型(LLM)的语音合成系统,旨在为用户提供高效、多样化的语音生成服务。
RAGFlow是一款基于深度文档理解技术的开源RAG(检索增强生成)引擎,旨在为企业和个人提供高效、准确的文本处理和问答功能。
OpenRouter 是一个统一的 API 接口平台,旨在为用户提供访问和使用多种 AI 模型的便捷途径。