本站以收录免费、开源、优质 AI 工具为主,帮助你跟随趋势、快速选型,并直达官网、GitHub 与文档。
模型榜单
模型排行
只收录单纯模型,排除套壳工具;按公开发布时间、上下文长度、向量维度、能力覆盖、开源状态和公开资料综合整理。
向量
按检索质量、维度灵活性、多语言和多模态覆盖综合排序。
| 排名 | 模型 | 发布时间 | 上下文 / 维度 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|---|
| 1 | Cohere Embed v4 Cohere | 2025-04-15 | 128K tokens 256 / 512 / 1024 / 1536 | 向量文字图片 | 多模态向量模型,支持文本、图片和混合文档检索,维度可裁剪。 | Cohere |
| 2 | Qwen3-Embedding-8B Alibaba | 2025-06-05 | 32K tokens 8B / 4B / 0.6B | 向量文字 | Qwen3 系列开源向量模型,覆盖多语言、跨语言检索、代码检索和重排序任务。 | arXiv |
| 3 | text-embedding-3-large OpenAI | 2024-01-25 | 3072 | 向量文字 | OpenAI 高质量通用文本向量模型,适合多语言 RAG 和语义检索。 | OpenAI Docs |
| 4 | voyage-3 Voyage AI | 2024-09-18 | 1024 | 向量文字 | 小尺寸高质量文本向量模型,适合代码、金融、法律和多语言检索。 | Voyage AI |
| 5 | BGE-M3 BAAI | 2024-02-01 | 8192 tokens 1024 | 向量文字 | 开源多语言混合检索模型,单模型支持 dense、sparse 和 multi-vector。 | Hugging Face |
文本推理
按复杂推理、数学、代码和长任务稳定性排序。
| 排名 | 模型 | 发布时间 | 上下文 / 维度 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|---|
| 1 | GPT-5.5 OpenAI | 2026-04-23 | 1M tokens | 文字图片 | 综合推理、编程和长任务能力强,适合作为闭源旗舰文本模型基准。 | OpenAI |
| 2 | Gemini 3.1 Pro Google DeepMind | 2026-02-19 | 1M+ tokens | 文字图片音频视频 | Gemini 3 Pro 的升级核心智能模型,复杂推理和多模态能力更强。 | Google Blog |
| 3 | DeepSeek V4 DeepSeek | 2025-12 | 1M tokens | 文字 | 推理、代码和长上下文能力升级,补入 DeepSeek 新一代闭源模型。 | DeepSeek API Docs |
| 4 | Claude Sonnet 4.5 Anthropic | 2025-09-29 | 1M tokens | 文字图片 | 长上下文、代码和 agent 场景表现突出,适合复杂工程与文档任务。 | Anthropic Docs |
| 5 | Gemini 3 Pro Google DeepMind | 2026-02-19 | 1M+ tokens | 文字音频图片视频 | 原生多模态能力强,适合图片、视频、音频和文本混合理解任务。 | Android Central |
| 6 | Kimi K2 Moonshot AI | 2025-07 | 128K tokens | 文字 | Moonshot 开源 MoE 模型,强调 agentic 能力、代码和复杂推理任务。 | GitHub |
| 7 | GLM-5.1 Zhipu AI | 2026-03 | 203K tokens | 文字 | 智谱 GLM 新一代混合推理模型,适合中文推理、工具调用和企业级任务。 | SCBX R&D |
| 8 | GLM-4.5 Zhipu AI | 2025-08 | 128K tokens | 文字 | 智谱开源 MoE 模型,统一推理、编程和 agent 能力,采用 MIT 许可证。 | Hugging Face |
| 9 | DeepSeek-R1 DeepSeek | 2025-01-20 | 128K tokens | 文字 | 开源推理模型代表,适合数学、代码和可自托管推理工作流。 | DeepSeek Docs |
| 10 | Qwen3-235B-A22B Alibaba | 2025-04-28 | 128K tokens | 文字 | 开源混合推理模型,覆盖多语言、推理和编程任务。 | TechCrunch |
写作
按长文表达、可控风格、中文体验和编辑质量排序。
| 排名 | 模型 | 发布时间 | 上下文 / 维度 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|---|
| 1 | Claude Sonnet 4.5 Anthropic | 2025-09-29 | 1M tokens | 文字图片 | 长文结构、润色和文档编辑稳定,适合高质量写作流程。 | Anthropic Docs |
| 2 | GPT-5.5 OpenAI | 2026-04-23 | 1M tokens | 文字图片 | 通用写作、头脑风暴和多轮改稿能力均衡。 | OpenAI |
| 3 | Gemini 3.1 Pro Google DeepMind | 2026-02-19 | 1M+ tokens | 文字图片音频视频 | 适合结合图片、视频或资料的高质量多模态写作与整理。 | Google Blog |
| 4 | Gemini 3 Pro Google DeepMind | 2026-02-19 | 1M+ tokens | 文字音频图片视频 | 适合结合图片、视频或资料的多模态写作与整理。 | Android Central |
| 5 | GLM-5.1 Zhipu AI | 2026-03 | 203K tokens | 文字 | 中文写作、企业知识整理和工具调用场景可用性高。 | SCBX R&D |
| 6 | Kimi K2 Moonshot AI | 2025-07 | 128K tokens | 文字 | 开源模型,适合长文生成、技术文档和 agent 内容流程。 | GitHub |
| 7 | Qwen3-235B-A22B Alibaba | 2025-04-28 | 128K tokens | 文字 | 开源中文写作与多语言生成可用性高。 | TechCrunch |
上下文长度
按公开上下文窗口长度和长上下文可用性排序。
| 排名 | 模型 | 发布时间 | 上下文 / 维度 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|---|
| 1 | Llama 4 Scout Meta | 2025-04-05 | 10M tokens | 文字图片 | 超长上下文开源多模态模型,适合长文档和跨文档检索推理。 | Meta |
| 2 | Gemini 3.1 Pro Google DeepMind | 2026-02-19 | 1M+ tokens | 文字图片音频视频 | Gemini 3 Pro 的升级核心智能模型,复杂推理和多模态能力更强。 | Google Blog |
| 3 | Gemini 3 Pro Google DeepMind | 2026-02-19 | 1M+ tokens | 文字音频图片视频 | 原生多模态能力强,适合图片、视频、音频和文本混合理解任务。 | Android Central |
| 4 | GPT-5.5 OpenAI | 2026-04-23 | 1M tokens | 文字图片 | 综合推理、编程和长任务能力强,适合作为闭源旗舰文本模型基准。 | OpenAI |
| 5 | DeepSeek V4 DeepSeek | 2025-12 | 1M tokens | 文字 | DeepSeek 新一代推理和通用文本模型,适合数学、代码和长上下文任务。 | DeepSeek API Docs |
| 6 | Claude Sonnet 4.5 Anthropic | 2025-09-29 | 1M tokens | 文字图片 | 长上下文、代码和 agent 场景表现突出,适合复杂工程与文档任务。 | Anthropic Docs |
| 7 | GLM-5.1 Zhipu AI | 2026-03 | 203K tokens | 文字 | 智谱 GLM 新一代混合推理模型,适合中文推理、工具调用和企业级任务。 | SCBX R&D |
| 8 | Kimi K2 Moonshot AI | 2025-07 | 128K tokens | 文字 | Moonshot 开源 MoE 模型,强调 agentic 能力、代码和复杂推理任务。 | GitHub |
| 9 | DeepSeek-R1 DeepSeek | 2025-01-20 | 128K tokens | 文字 | 开源推理模型代表,适合数学、代码和可自托管推理工作流。 | DeepSeek Docs |
编程
按代码生成、仓库理解、修复和 agentic coding 表现排序。
| 排名 | 模型 | 发布时间 | 上下文 / 维度 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|---|
| 1 | GPT-5.5 OpenAI | 2026-04-23 | 1M tokens | 文字图片 | OpenAI 定位为强 agentic coding 模型,适合复杂代码任务。 | OpenAI |
| 2 | Claude Sonnet 4.5 Anthropic | 2025-09-29 | 1M tokens | 文字图片 | 工程协作和长代码库理解能力突出。 | Anthropic Docs |
| 3 | DeepSeek V4 DeepSeek | 2025-12 | 1M tokens | 文字 | 适合代码推理、算法问题和长上下文仓库理解。 | DeepSeek API Docs |
| 4 | Kimi K2 Moonshot AI | 2025-07 | 128K tokens | 文字 | 开源 agentic coding 表现突出,适合工具调用和复杂代码任务。 | GitHub |
| 5 | Qwen3-Coder Alibaba | 2025-07 | 128K tokens | 文字 | 开源 agentic coding 模型,适合自托管代码生成与修复。 | TechCrunch |
| 6 | GLM-4.5 Zhipu AI | 2025-08 | 128K tokens | 文字 | 开源模型,适合代码代理、工具调用和企业自托管。 | Hugging Face |
| 7 | GLM-5.1 Zhipu AI | 2026-03 | 203K tokens | 文字 | 适合中文代码助手、企业内部工具调用和技术文档任务。 | SCBX R&D |
| 8 | DeepSeek-R1 DeepSeek | 2025-01-20 | 128K tokens | 文字 | 开源推理能力可用于算法、调试和代码审查。 | DeepSeek Docs |
Agent
按工具调用、长任务执行、代码/浏览器任务和上下文保持排序。
| 排名 | 模型 | 发布时间 | 上下文 / 维度 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|---|
| 1 | GPT-5.5 OpenAI | 2026-04-23 | 1M tokens | 文字图片 | 适合长程任务、工具调用和复杂办公/代码 agent 流程。 | OpenAI |
| 2 | Claude Sonnet 4.5 Anthropic | 2025-09-29 | 1M tokens | 文字图片 | 适合代码 agent、文档 agent 和长上下文任务。 | Anthropic Docs |
| 3 | DeepSeek V4 DeepSeek | 2025-12 | 1M tokens | 文字 | 适合推理密集型 agent、代码代理和长上下文规划。 | DeepSeek API Docs |
| 4 | Kimi K2 Moonshot AI | 2025-07 | 128K tokens | 文字 | 开源 agentic 模型,适合工具调用、编码和自动化流程。 | GitHub |
| 5 | Gemini 3.1 Pro Google DeepMind | 2026-02-19 | 1M+ tokens | 文字图片音频视频 | 多模态输入下的 agent 任务覆盖面广,并优先于 Gemini 3 Pro。 | Google Blog |
| 6 | Gemini 3 Pro Google DeepMind | 2026-02-19 | 1M+ tokens | 文字音频图片视频 | 多模态输入下的 agent 任务覆盖面广。 | Android Central |
| 7 | GLM-5.1 Zhipu AI | 2026-03 | 203K tokens | 文字 | 适合中文办公 agent、知识库任务和工具调用流程。 | SCBX R&D |
| 8 | GLM-4.5 Zhipu AI | 2025-08 | 128K tokens | 文字 | 开源 agent 基础模型,适合自托管中文工具调用流程。 | Hugging Face |
| 9 | Llama 4 Scout Meta | 2025-04-05 | 10M tokens | 文字图片 | 开源长上下文 agent 实验基础模型。 | Meta |
多模态
按文字、音频、图片、视频理解覆盖和综合能力排序。
| 排名 | 模型 | 发布时间 | 上下文 / 维度 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|---|
| 1 | Gemini 3.1 Pro Google DeepMind | 2026-02-19 | 1M+ tokens | 文字图片音频视频 | Gemini 3 Pro 的升级核心智能模型,复杂推理和多模态能力更强。 | Google Blog |
| 2 | Gemini 3 Pro Google DeepMind | 2026-02-19 | 1M+ tokens | 文字音频图片视频 | 原生多模态能力强,适合图片、视频、音频和文本混合理解任务。 | Android Central |
| 3 | GPT-5.5 OpenAI | 2026-04-23 | 1M tokens | 文字图片 | 综合推理、编程和长任务能力强,适合作为闭源旗舰文本模型基准。 | OpenAI |
| 4 | Claude Sonnet 4.5 Anthropic | 2025-09-29 | 1M tokens | 文字图片 | 长上下文、代码和 agent 场景表现突出,适合复杂工程与文档任务。 | Anthropic Docs |
| 5 | Llama 4 Scout Meta | 2025-04-05 | 10M tokens | 文字图片 | 超长上下文开源多模态模型,适合长文档和跨文档检索推理。 | Meta |
图片
按图像生成质量、文字渲染、风格控制和商业可用性排序。
| 排名 | 模型 | 发布时间 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|
| 1 | GPT Image 1.5 OpenAI | 2025-12-16 | 图片文字 | 高质量图像生成与编辑模型,适合海报、产品图和视觉概念生成。 | TechCrunch |
| 2 | FLUX.2 Black Forest Labs | 2025-11-25 | 图片文字 | FLUX.2 系列支持文本生图、单参考图编辑和多参考图编辑,开源 klein 4B 使用 Apache 2.0。 | Black Forest Labs |
| 3 | Qwen-Image Alibaba | 2025-08-04 | 图片文字 | Qwen 系列开源图像基础模型,擅长中英文文字渲染、通用图像生成和精确图像编辑。 | Hugging Face |
| 4 | Z-Image-Turbo Tongyi-MAI | 2025-11-27 | 图片文字 | 通义 MAI 开源 6B 高效文生图模型,主打 8 步快速生成、低显存部署和中英文文字渲染。 | GitHub |
| 5 | Imagen 4 Google DeepMind | 2025-05-20 | 图片文字 | Google 图像生成模型,适合高质量视觉资产与文字渲染场景。 | Google Blog |
| 6 | FLUX.1 Kontext Black Forest Labs | 2025-05 | 图片文字 | 图像生成与上下文编辑模型,适合可控视觉修改。 | Black Forest Labs |
TTS
按自然度、情绪表达、多语言和对话能力排序。
| 排名 | 模型 | 发布时间 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|
| 1 | Eleven v3 ElevenLabs | 2025-06-03 | 音频文字 | 表现力强的 TTS 模型,支持多语言、多说话人和情绪化语音标签。 | ElevenLabs |
| 2 | IndexTTS 2.5 ByteDance | 2025-10 | 音频文字 | 开源工业级零样本 TTS 模型,强调音色克隆、韵律和情感控制。 | arXiv |
| 3 | Qwen3-TTS Alibaba | 2026-01-23 | 音频文字 | Qwen 系列开源语音合成模型,支持多语言 TTS、音色控制和面向对话/内容生产的语音输出。 | Hugging Face |
| 4 | gpt-4o-mini-tts OpenAI | 2025-03 | 音频文字 | OpenAI 语音生成模型,适合低延迟应用内 TTS。 | OpenAI Docs |
| 5 | Gemini 2.5 Pro TTS Google | 2025-05 | 音频文字 | Gemini 语音生成模型,适合多语言语音输出。 | Google AI Docs |
音乐
按音乐生成质量、可控性、开源可用性和声音设计能力排序。
| 排名 | 模型 | 发布时间 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|
| 1 | Suno v4.5+ Suno | 2025-05 | 音频文字 | 面向完整歌曲生成的音乐模型,支持更长歌曲、更丰富风格控制和人声/编曲一体化创作。 | Suno |
| 2 | HeartMula HeartMula | 2026-01 | 音频文字 | 面向音乐创作的 AI 模型/平台,适合从提示词生成歌曲、旋律和可迭代的音乐草稿。 | arXiv |
| 3 | Stable Audio Open Stability AI | 2024-06-05 | 音频文字 | 开源文本到音频模型,适合音效、节奏和短音乐素材生成。 | TechCrunch |
| 4 | MusicGen Meta | 2023-06 | 音频文字 | 开源音乐生成模型,适合研究和自托管音乐生成实验。 | Meta Audiocraft |
| 5 | Lyria 2 Google DeepMind | 2025-05 | 音频文字 | Google 音乐生成模型,适合高保真音乐创作场景。 | Google DeepMind |
视频
按运动一致性、镜头控制、声音同步和可用性排序。
| 排名 | 模型 | 发布时间 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|
| 1 | HappyHorse-1.0 HappyHorse | 2026-04-16 | 视频音频文字图片 | 视频生成模型,突出物理一致性、运镜控制和文本/图像到视频工作流。 | HappyHorse |
| 2 | Seedance 2.0 ByteDance | 2026-04-21 | 视频音频文字图片 | 字节 Seed 系列视频生成模型,强调可控镜头、主体一致性和音视频生成能力。 | ByteDance Seed |
| 3 | Sora 2 OpenAI | 2025-09-30 | 视频音频文字 | 视频和音频生成模型,适合复杂动作、镜头和声画同步场景。 | OpenAI |
| 4 | LTX-2.3 Lightricks | 2026-05 | 视频音频图片文字 | Lightricks 开源视频模型,支持音画同步,适合快速图生视频、关键帧和可控视频编辑实验。 | LTX |
| 5 | Veo 3 Google DeepMind | 2025-05 | 视频音频文字图片 | Google 视频生成模型,支持高质量视频与音频生成。 | Google DeepMind |
| 6 | Runway Gen-4 Runway | 2025-03 | 视频图片文字 | 视频生成模型,适合可控角色、场景和镜头一致性。 | Runway |
数字人
按人物驱动、口型同步、姿态控制和研究开放度排序。
| 排名 | 模型 | 发布时间 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|
| 1 | OmniHuman-1 ByteDance | 2025-02 | 视频音频图片 | 人物视频生成研究模型,可由图像和音频驱动自然人物动作。 | ByteDance Research |
| 2 | EMO Alibaba | 2024-02 | 视频音频图片 | 肖像音频驱动视频模型,适合说话人和唱歌头像研究。 | EMO Project |
| 3 | Hallo2 Fudan University | 2024-09 | 视频音频图片 | 开源音频驱动肖像动画模型,适合自托管数字人实验。 | GitHub |
图片编辑
按指令编辑、局部修改、风格保持和文字编辑能力排序。
| 排名 | 模型 | 发布时间 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|
| 1 | GPT Image 1.5 OpenAI | 2025-12-16 | 图片文字 | 图像生成和编辑一体化,适合产品图、海报和视觉资产迭代。 | TechCrunch |
| 2 | FLUX.2 Black Forest Labs | 2025-11-25 | 图片文字 | FLUX.2 提供多参考图编辑和局部可控修改,按要求置于第 2。 | Black Forest Labs |
| 3 | Qwen-Image-Edit Alibaba | 2025-08 | 图片文字 | Qwen 图像编辑模型,支持语义修改、风格迁移、物体旋转和中英文海报文字编辑。 | Hugging Face |
| 4 | FLUX.1 Kontext Black Forest Labs | 2025-05 | 图片文字 | 以图片上下文为核心的编辑模型,适合局部修改和风格保持。 | Black Forest Labs |
| 5 | SeedEdit 3.0 ByteDance | 2025 | 图片文字 | 指令式图片编辑模型,适合语义改图和局部重绘。 | ByteDance Seed |
视频编辑
按文本改视频、镜头重写、时间一致性和编辑控制排序。
| 排名 | 模型 | 发布时间 | 能力 | 说明 | 来源 |
|---|---|---|---|---|---|
| 1 | Runway Aleph Runway | 2025-07 | 视频图片文字 | 视频编辑模型,适合通过自然语言修改已有视频片段。 | Runway |
| 2 | Seedance 2.0 ByteDance | 2026-04-21 | 视频音频文字图片 | 适合文本/图片到视频、镜头改写和主体一致性视频生成。 | ByteDance Seed |
| 3 | LTX-2.3 Lightricks | 2026-05 | 视频音频图片文字 | 开源视频生成和编辑模型,适合关键帧控制、快速迭代和自托管实验。 | LTX |
| 4 | Sora 2 OpenAI | 2025-09-30 | 视频音频文字 | 支持故事板和图生视频流程,适合重新组织镜头和生成补帧素材。 | OpenAI |
| 5 | Veo 3 Google DeepMind | 2025-05 | 视频音频图片文字 | 适合按文本和参考素材生成、延展或重写视频片段。 | Google DeepMind |
About
在 AI 主导的世界中,成为你的工具军刀。
本站以收录免费、开源、优质 AI 工具为主,帮助你跟随趋势、快速选型,并直达官网、GitHub 与文档。 按 Ctrl+D 收藏本站,后续会持续更新分类、专题和工具详情。