项目框架-第 3 页-办公人导航

项目框架

Letta

Letta 是一个开源 AI 助手框架，旨在为开发者和企业提供高效、灵活的自然语言处理（NLP）解决方案。

Bytebot

一个开源的 AI 桌面代理，旨在通过自然语言指令自动化计算机任务，允许用户通过简单的自然语言命令执行复杂的任务，如网页浏览、数据处理、文件管理等，无需编写复杂代码。

500-AI-Agents-Projects

500-AI-Agents-Projects

AI Agent案例集合。收录了 500 多个 AI Agent 项目和应用案例，涵盖医疗、金融、教育、零售等多个行业，每个案例都配有详细说明和开源代码链接，便于开发者参考和学习。

LeRobot

LeRobot 是由 Hugging Face 推出的一个开源机器人项目，旨在通过提供模型、数据集和工具，降低机器人开发的门槛，使更多人能够参与和受益于机器人技术的发展。

AI-Media2Doc

AI-Media2Doc

一键将音视频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。

PPTist

PPTist 是一个基于 Web 的演示文稿（幻灯片）应用，旨在为用户提供类似于 Microsoft Office PowerPoint 的功能。

MultiTalk

MultiTalk 是一个音频驱动的多人物对话视频生成系统，支持多人对话、互动控制、卡通角色生成、唱歌等。

Edge-TTS

Edge-TTS 是一个基于微软 Azure 文本转语音（TTS）功能的 Python 库，旨在为开发者提供简单、高效、免费的文本转语音解决方案。

GPT-SoVITS

GPT-SoVITS 是一款创新的开源声音克隆工具，它将 GPT 模型与 SoVITS 技术相结合，能够在样本数据极少的情况下，实现高质量的语音克隆和文本到语音转换（TTS）。

Fish Speech

Fish Speech

Fish Speech 是一个由 Fish Audio 团队开发的文本转语音（TTS）技术，旨在利用先进的机器学习和深度学习技术将文字转换为自然流畅的语音输出。

PaddleSpeech

PaddleSpeech

百度飞桨（PaddlePaddle）平台上的一个开源语音处理工具包，旨在为语音识别、语音合成、语音翻译、语音识别、语音分类、语音标点恢复、语音情感分析等任务提供全面的解决方案。

Xinference

Xinference 是一个功能强大且功能全面的分布式推理框架，旨在简化大语言模型（LLM）、语音识别、多模态模型等多种AI模型的推理任务。

DroidRun

DroidRun 是一个开源框架，旨在通过自然语言命令控制 Android 设备，实现移动设备的自动化操作。

browser-use

browser-use

Browser Use 是一款专为大语言模型设计的智能浏览器工具。它是将 AI 智能体与浏览器连接起来的最简单方式，通过提供强大且简单的浏览器自动化接口，让 AI 智能体能够访问各类网站。

olmOCR

olmOCR是一个用于将PDF、图像等基于图像的文档转换为可读、纯文本格式的工具。

AgenticSeek

AgenticSeek

一个完全本地运行的 AI 助手，旨在替代传统云端 AI 服务，提供多种功能，包括智能网页浏览、代码编写、任务规划、语音交互等，支持多种编程语言和多语言支持。

MCP Feedback Enhanced

MCP Feedback Enhanced

MCP Feedback Enhanced 是一个基于 Model Context Protocol（MCP）的反馈驱动开发工具，旨在通过用户确认而非推测操作，优化AI交互流程，提升开发效率。

awesome-llm-apps

awesome-llm-apps

awesome-llm-apps 是一个开源项目集合，旨在展示如何利用先进语言模型（如 RAG 和 AI 代理）构建实用应用程序。

Gemini CLI

Gemini CLI 是一个开源的 AI 代理工具，由 Google 开发，旨在将 Gemini 模型的强大功能直接集成到开发者的终端中。

小智 AI 聊天机器人

小智 AI 聊天机器人

小智 AI 聊天机器人是一款基于开源硬件和开源软件的智能对话设备，旨在帮助用户入门 AI 硬件开发和 AI 模型应用。

WeKnora

WeKnora是一款基于大语言模型的文档理解与语义检索框架，专为结构复杂、内容异构的文档场景而打造。

coze-studio

coze-studio

Coze Studio 是由字节跳动开发并开源的一站式 AI Agent 开发工具，旨在为开发者提供从开发到部署的全方位支持，帮助他们快速构建和调试智能体、应用和工作流。

PoloAPI

PoloAPI 是一个专注于大模型 API 聚合服务的平台，旨在帮助开发者和企业快速接入和使用多种 AI 模型，如 Claude、OpenAI、Gemini 等。

EmotiVoice易魔声

EmotiVoice易魔声

EmotiVoice是一个强大的开源TTS引擎，完全免费，支持中英文双语，包含2000多种不同的音色，以及特色的情感合成功能，支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

MotionAgent

MotionAgent

MotionAgent是一个能将用户创造的剧本生成视频的深度学习模型工具。用户通过我们提供的工具组合，进行剧本创作、剧照生成、图片/视频生成、背景音乐谱写等工作。

DreamTalk

DreamTalk是一个基于扩散模型的音频驱动表达性头部生成框架，核心功能是将静态人物照片转化为逼真、富有表现力的说话视频。

AniPortrait

AniPortrait

AniPortrait 是腾讯游戏智迹团队开发的一款创新的音频驱动肖像动画生成框架，能够通过音频和参考肖像图像生成高质量的动态视频。

IDM-VTON

IDM-VTON是一款基于深度学习和扩散模型的虚拟试衣技术，旨在通过高保真度的图像生成实现逼真的虚拟试穿效果。

Diffutoon

Diffutoon 是一种基于扩散模型的高分辨率可编辑卡通着色技术，其核心功能是将真实视频转换为动漫风格，同时保持内容的一致性和高质量。

MindSearch

MindSearch是一款由上海人工智能实验室联合研发的开源AI搜索引擎框架，旨在通过模仿人类的思维过程，高效地处理复杂信息搜集与整合任务。

Midscene.js

Midscene.js

Midscene.js 是一个基于人工智能（AI）技术的自动化 SDK，旨在简化用户界面（UI）自动化测试流程，提高测试效率和准确性。

AstrBo

易于上手的多平台聊天机器人及开发框架。松耦合 / 异步 / 多消息平台部署 / 易用的插件系统 / 完善的大语言模型（LLM）接入

1 234