4 个小时课程!不限基础和语言!免费学习!专门为开发者量身打造的『从 0 到 1 入门 AI 大模型』
开源大模型平台
科大讯飞推出的新一代认知智能大模型
知识库大模型,智能客服,智能问答,AI写作
IndexTTS2 是一个突破性的自回归语音合成模型,旨在解决大规模文本到语音(TTS)系统在精确时长控制和情感表达方面的挑战。
专注于语言模型(LLM)SQL 能力评测的专业平台,构建了全面且具实践价值的 SQL 能力排行榜(SCALE),为开发者、数据库管理员及企业技术决策者提供关键参考
美团自主研发的生成式AI大模型,模型具备强大的多模态能力,能处理文本、图像等多种数据类型
Kimi K2 是北京月之暗面科技有限公司于 2025 年 7 月 11 日推出的开源大语言模型。
MMAudio是一个多模态音频生成模型,旨在通过视频和/或文本输入生成高质量、同步的音频。
Veo 3 是 Google DeepMind 推出的新一代视频生成模型,专为电影制作人、故事讲述者和创意工作者设计,将视频与音频无缝结合,开启生成式 AI 的创作新篇章。
字节跳动开发的AI视频生成模型,模型能够根据文本或图像生成高质量的视频内容,支持多镜头切换、稳定运动轨迹和风格化控制,适用于创意内容创作、广告制作和教育演示等场景。
Hallo 是一个由复旦大学(Fudan University)开发的开源项目,专注于音频驱动的视觉合成技术,特别是用于人像动画生成。
MuseTalk 是一个实时高质量音频驱动唇形同步模型,旨在解决高分辨率、身份一致性和准确唇形同步的面部视觉配音挑战,尤其适用于实时应用如直播视频 。
SadTalker 是一个基于单张图像和音频生成说话人脸视频的模型,其核心功能是通过音频输入使静态图片中的图像动起来,并生成说话的虚拟人物。
一款高性能文本到语音(TTS)系统,基于流匹配的非自回归生成方法,结合了扩散变换器(DiT)技术。
Seed-TTS 是由字节跳动开发的高级文本到语音(TTS)模型系列,旨在生成高质量、几乎无法与人类语音区分的语音。
MiniMind项目旨在从零开始训练一个轻量级语言模型(LLM),并提供完整的训练、微调、推理和部署流程。
Qwen-Image 是阿里通义千问团队于2025年8月5日开源的200亿参数图像生成基础模型,采用MMDiT架构,专为复杂文本渲染与高精度图像生成设计。
gpt-oss 是 OpenAI 开发的开源模型,支持推理、代理任务和开发者使用场景。
Moondream 是一个开源的轻量级视觉语言模型,由开发者 vikhyatk 推出,旨在提供高效、灵活的图像理解和文本生成能力。
“林哥的大模型野榜”是一个专注于中国用户需求的大模型产品排行榜,旨在帮助用户更好地了解和选择适合的大模型产品。
元象大模型XChat是一款由元象科技自主研发的高性能通用人工智能大模型,旨在降低开发门槛与推理成本,满足多任务需求。
讯飞星辰MaaS平台是科大讯飞推出的一款一站式大模型定制精调平台,旨在为开发者和企业用户提供低门槛、全栈式的大模型应用开发服务。
达医智影是阿里巴巴达摩院医疗AI实验室研发的一款创新性AI医疗工具,专注于CT智能读片和癌症筛查领域。
53AI企业大模型应用平台是大中型企业广泛采用大模型落地应用平台,系统实现对全部主流大模型的统一纳管,包括DeepSeeK、OpenAI、Azure OpenAI、文心一言、讯飞星火、零一、LlaMa等。
FaceChain 是一个基于深度学习技术的个性化数字形象生成工具,利用生成对抗网络(GANs)和 Stable Diffusion 模型,通过少量照片生成高度个性化的数字形象。
Whisper 是 OpenAI 开发的一款强大的语音识别模型,具有多语言支持、语音翻译和语言识别等多功能能力。
DDColor 是一种由阿里巴巴达摩院研发的先进图像上色技术,旨在通过深度学习技术将黑白或灰度图像转换为逼真且生动的彩色图像。
LivePortrait是一款由快手科技与中国科学技术大学、复旦大学共同研发的AI驱动肖像动画工具,旨在将静态肖像图像转化为逼真的动态视频。
EchoMimic 是蚂蚁集团开发的一款基于音频驱动的肖像动画生成工具,旨在通过音频和面部标志点生成逼真的动态视频。
CosyVoice是一款由阿里巴巴通义实验室开发并开源的多语言语音生成模型,专注于自然语音生成、音色克隆和情感控制。
AnchorCrafter 是由中国科学院与腾讯联合推出的一项创新技术,旨在通过人工智能生成高保真度的产品推广视频。
Goku视频生成模型是由中国香港大学与字节跳动联合推出的一款AI视频生成工具,能够实现文本到视频、图像到视频以及文本到图像等多种生成方式。