模型榜单

模型排行

只收录单纯模型,排除套壳工具;按公开发布时间、上下文长度、向量维度、能力覆盖、开源状态和公开资料综合整理。

向量

按检索质量、维度灵活性、多语言和多模态覆盖综合排序。

排名 模型 发布时间 上下文 / 维度 能力 说明 来源
1
Cohere Embed v4 Cohere
2025-04-15 128K tokens 256 / 512 / 1024 / 1536
向量文字图片
多模态向量模型,支持文本、图片和混合文档检索,维度可裁剪。 Cohere
2
Qwen3-Embedding-8B Alibaba
2025-06-05 32K tokens 8B / 4B / 0.6B
向量文字
Qwen3 系列开源向量模型,覆盖多语言、跨语言检索、代码检索和重排序任务。 arXiv
3
text-embedding-3-large OpenAI
2024-01-25 3072
向量文字
OpenAI 高质量通用文本向量模型,适合多语言 RAG 和语义检索。 OpenAI Docs
4
voyage-3 Voyage AI
2024-09-18 1024
向量文字
小尺寸高质量文本向量模型,适合代码、金融、法律和多语言检索。 Voyage AI
5
BGE-M3 BAAI
2024-02-01 8192 tokens 1024
向量文字
开源多语言混合检索模型,单模型支持 dense、sparse 和 multi-vector。 Hugging Face

文本推理

按复杂推理、数学、代码和长任务稳定性排序。

排名 模型 发布时间 上下文 / 维度 能力 说明 来源
1
GPT-5.5 OpenAI
2026-04-23 1M tokens
文字图片
综合推理、编程和长任务能力强,适合作为闭源旗舰文本模型基准。 OpenAI
2
Gemini 3.1 Pro Google DeepMind
2026-02-19 1M+ tokens
文字图片音频视频
Gemini 3 Pro 的升级核心智能模型,复杂推理和多模态能力更强。 Google Blog
3
DeepSeek V4 DeepSeek
2025-12 1M tokens
文字
推理、代码和长上下文能力升级,补入 DeepSeek 新一代闭源模型。 DeepSeek API Docs
4
Claude Sonnet 4.5 Anthropic
2025-09-29 1M tokens
文字图片
长上下文、代码和 agent 场景表现突出,适合复杂工程与文档任务。 Anthropic Docs
5
Gemini 3 Pro Google DeepMind
2026-02-19 1M+ tokens
文字音频图片视频
原生多模态能力强,适合图片、视频、音频和文本混合理解任务。 Android Central
6
Kimi K2 Moonshot AI
2025-07 128K tokens
文字
Moonshot 开源 MoE 模型,强调 agentic 能力、代码和复杂推理任务。 GitHub
7
GLM-5.1 Zhipu AI
2026-03 203K tokens
文字
智谱 GLM 新一代混合推理模型,适合中文推理、工具调用和企业级任务。 SCBX R&D
8
GLM-4.5 Zhipu AI
2025-08 128K tokens
文字
智谱开源 MoE 模型,统一推理、编程和 agent 能力,采用 MIT 许可证。 Hugging Face
9
DeepSeek-R1 DeepSeek
2025-01-20 128K tokens
文字
开源推理模型代表,适合数学、代码和可自托管推理工作流。 DeepSeek Docs
10
Qwen3-235B-A22B Alibaba
2025-04-28 128K tokens
文字
开源混合推理模型,覆盖多语言、推理和编程任务。 TechCrunch

写作

按长文表达、可控风格、中文体验和编辑质量排序。

排名 模型 发布时间 上下文 / 维度 能力 说明 来源
1
Claude Sonnet 4.5 Anthropic
2025-09-29 1M tokens
文字图片
长文结构、润色和文档编辑稳定,适合高质量写作流程。 Anthropic Docs
2
GPT-5.5 OpenAI
2026-04-23 1M tokens
文字图片
通用写作、头脑风暴和多轮改稿能力均衡。 OpenAI
3
Gemini 3.1 Pro Google DeepMind
2026-02-19 1M+ tokens
文字图片音频视频
适合结合图片、视频或资料的高质量多模态写作与整理。 Google Blog
4
Gemini 3 Pro Google DeepMind
2026-02-19 1M+ tokens
文字音频图片视频
适合结合图片、视频或资料的多模态写作与整理。 Android Central
5
GLM-5.1 Zhipu AI
2026-03 203K tokens
文字
中文写作、企业知识整理和工具调用场景可用性高。 SCBX R&D
6
Kimi K2 Moonshot AI
2025-07 128K tokens
文字
开源模型,适合长文生成、技术文档和 agent 内容流程。 GitHub
7
Qwen3-235B-A22B Alibaba
2025-04-28 128K tokens
文字
开源中文写作与多语言生成可用性高。 TechCrunch

上下文长度

按公开上下文窗口长度和长上下文可用性排序。

排名 模型 发布时间 上下文 / 维度 能力 说明 来源
1
Llama 4 Scout Meta
2025-04-05 10M tokens
文字图片
超长上下文开源多模态模型,适合长文档和跨文档检索推理。 Meta
2
Gemini 3.1 Pro Google DeepMind
2026-02-19 1M+ tokens
文字图片音频视频
Gemini 3 Pro 的升级核心智能模型,复杂推理和多模态能力更强。 Google Blog
3
Gemini 3 Pro Google DeepMind
2026-02-19 1M+ tokens
文字音频图片视频
原生多模态能力强,适合图片、视频、音频和文本混合理解任务。 Android Central
4
GPT-5.5 OpenAI
2026-04-23 1M tokens
文字图片
综合推理、编程和长任务能力强,适合作为闭源旗舰文本模型基准。 OpenAI
5
DeepSeek V4 DeepSeek
2025-12 1M tokens
文字
DeepSeek 新一代推理和通用文本模型,适合数学、代码和长上下文任务。 DeepSeek API Docs
6
Claude Sonnet 4.5 Anthropic
2025-09-29 1M tokens
文字图片
长上下文、代码和 agent 场景表现突出,适合复杂工程与文档任务。 Anthropic Docs
7
GLM-5.1 Zhipu AI
2026-03 203K tokens
文字
智谱 GLM 新一代混合推理模型,适合中文推理、工具调用和企业级任务。 SCBX R&D
8
Kimi K2 Moonshot AI
2025-07 128K tokens
文字
Moonshot 开源 MoE 模型,强调 agentic 能力、代码和复杂推理任务。 GitHub
9
DeepSeek-R1 DeepSeek
2025-01-20 128K tokens
文字
开源推理模型代表,适合数学、代码和可自托管推理工作流。 DeepSeek Docs

编程

按代码生成、仓库理解、修复和 agentic coding 表现排序。

排名 模型 发布时间 上下文 / 维度 能力 说明 来源
1
GPT-5.5 OpenAI
2026-04-23 1M tokens
文字图片
OpenAI 定位为强 agentic coding 模型,适合复杂代码任务。 OpenAI
2
Claude Sonnet 4.5 Anthropic
2025-09-29 1M tokens
文字图片
工程协作和长代码库理解能力突出。 Anthropic Docs
3
DeepSeek V4 DeepSeek
2025-12 1M tokens
文字
适合代码推理、算法问题和长上下文仓库理解。 DeepSeek API Docs
4
Kimi K2 Moonshot AI
2025-07 128K tokens
文字
开源 agentic coding 表现突出,适合工具调用和复杂代码任务。 GitHub
5
Qwen3-Coder Alibaba
2025-07 128K tokens
文字
开源 agentic coding 模型,适合自托管代码生成与修复。 TechCrunch
6
GLM-4.5 Zhipu AI
2025-08 128K tokens
文字
开源模型,适合代码代理、工具调用和企业自托管。 Hugging Face
7
GLM-5.1 Zhipu AI
2026-03 203K tokens
文字
适合中文代码助手、企业内部工具调用和技术文档任务。 SCBX R&D
8
DeepSeek-R1 DeepSeek
2025-01-20 128K tokens
文字
开源推理能力可用于算法、调试和代码审查。 DeepSeek Docs

Agent

按工具调用、长任务执行、代码/浏览器任务和上下文保持排序。

排名 模型 发布时间 上下文 / 维度 能力 说明 来源
1
GPT-5.5 OpenAI
2026-04-23 1M tokens
文字图片
适合长程任务、工具调用和复杂办公/代码 agent 流程。 OpenAI
2
Claude Sonnet 4.5 Anthropic
2025-09-29 1M tokens
文字图片
适合代码 agent、文档 agent 和长上下文任务。 Anthropic Docs
3
DeepSeek V4 DeepSeek
2025-12 1M tokens
文字
适合推理密集型 agent、代码代理和长上下文规划。 DeepSeek API Docs
4
Kimi K2 Moonshot AI
2025-07 128K tokens
文字
开源 agentic 模型,适合工具调用、编码和自动化流程。 GitHub
5
Gemini 3.1 Pro Google DeepMind
2026-02-19 1M+ tokens
文字图片音频视频
多模态输入下的 agent 任务覆盖面广,并优先于 Gemini 3 Pro。 Google Blog
6
Gemini 3 Pro Google DeepMind
2026-02-19 1M+ tokens
文字音频图片视频
多模态输入下的 agent 任务覆盖面广。 Android Central
7
GLM-5.1 Zhipu AI
2026-03 203K tokens
文字
适合中文办公 agent、知识库任务和工具调用流程。 SCBX R&D
8
GLM-4.5 Zhipu AI
2025-08 128K tokens
文字
开源 agent 基础模型,适合自托管中文工具调用流程。 Hugging Face
9
Llama 4 Scout Meta
2025-04-05 10M tokens
文字图片
开源长上下文 agent 实验基础模型。 Meta

多模态

按文字、音频、图片、视频理解覆盖和综合能力排序。

排名 模型 发布时间 上下文 / 维度 能力 说明 来源
1
Gemini 3.1 Pro Google DeepMind
2026-02-19 1M+ tokens
文字图片音频视频
Gemini 3 Pro 的升级核心智能模型,复杂推理和多模态能力更强。 Google Blog
2
Gemini 3 Pro Google DeepMind
2026-02-19 1M+ tokens
文字音频图片视频
原生多模态能力强,适合图片、视频、音频和文本混合理解任务。 Android Central
3
GPT-5.5 OpenAI
2026-04-23 1M tokens
文字图片
综合推理、编程和长任务能力强,适合作为闭源旗舰文本模型基准。 OpenAI
4
Claude Sonnet 4.5 Anthropic
2025-09-29 1M tokens
文字图片
长上下文、代码和 agent 场景表现突出,适合复杂工程与文档任务。 Anthropic Docs
5
Llama 4 Scout Meta
2025-04-05 10M tokens
文字图片
超长上下文开源多模态模型,适合长文档和跨文档检索推理。 Meta

图片

按图像生成质量、文字渲染、风格控制和商业可用性排序。

排名 模型 发布时间 能力 说明 来源
1
GPT Image 1.5 OpenAI
2025-12-16
图片文字
高质量图像生成与编辑模型,适合海报、产品图和视觉概念生成。 TechCrunch
2
FLUX.2 Black Forest Labs
2025-11-25
图片文字
FLUX.2 系列支持文本生图、单参考图编辑和多参考图编辑,开源 klein 4B 使用 Apache 2.0。 Black Forest Labs
3
Qwen-Image Alibaba
2025-08-04
图片文字
Qwen 系列开源图像基础模型,擅长中英文文字渲染、通用图像生成和精确图像编辑。 Hugging Face
4
Z-Image-Turbo Tongyi-MAI
2025-11-27
图片文字
通义 MAI 开源 6B 高效文生图模型,主打 8 步快速生成、低显存部署和中英文文字渲染。 GitHub
5
Imagen 4 Google DeepMind
2025-05-20
图片文字
Google 图像生成模型,适合高质量视觉资产与文字渲染场景。 Google Blog
6
FLUX.1 Kontext Black Forest Labs
2025-05
图片文字
图像生成与上下文编辑模型,适合可控视觉修改。 Black Forest Labs

TTS

按自然度、情绪表达、多语言和对话能力排序。

排名 模型 发布时间 能力 说明 来源
1
Eleven v3 ElevenLabs
2025-06-03
音频文字
表现力强的 TTS 模型,支持多语言、多说话人和情绪化语音标签。 ElevenLabs
2
IndexTTS 2.5 ByteDance
2025-10
音频文字
开源工业级零样本 TTS 模型,强调音色克隆、韵律和情感控制。 arXiv
3
Qwen3-TTS Alibaba
2026-01-23
音频文字
Qwen 系列开源语音合成模型,支持多语言 TTS、音色控制和面向对话/内容生产的语音输出。 Hugging Face
4
gpt-4o-mini-tts OpenAI
2025-03
音频文字
OpenAI 语音生成模型,适合低延迟应用内 TTS。 OpenAI Docs
5
Gemini 2.5 Pro TTS Google
2025-05
音频文字
Gemini 语音生成模型,适合多语言语音输出。 Google AI Docs

音乐

按音乐生成质量、可控性、开源可用性和声音设计能力排序。

排名 模型 发布时间 能力 说明 来源
1
Suno v4.5+ Suno
2025-05
音频文字
面向完整歌曲生成的音乐模型,支持更长歌曲、更丰富风格控制和人声/编曲一体化创作。 Suno
2
HeartMula HeartMula
2026-01
音频文字
面向音乐创作的 AI 模型/平台,适合从提示词生成歌曲、旋律和可迭代的音乐草稿。 arXiv
3
Stable Audio Open Stability AI
2024-06-05
音频文字
开源文本到音频模型,适合音效、节奏和短音乐素材生成。 TechCrunch
4
MusicGen Meta
2023-06
音频文字
开源音乐生成模型,适合研究和自托管音乐生成实验。 Meta Audiocraft
5
Lyria 2 Google DeepMind
2025-05
音频文字
Google 音乐生成模型,适合高保真音乐创作场景。 Google DeepMind

视频

按运动一致性、镜头控制、声音同步和可用性排序。

排名 模型 发布时间 能力 说明 来源
1
HappyHorse-1.0 HappyHorse
2026-04-16
视频音频文字图片
视频生成模型,突出物理一致性、运镜控制和文本/图像到视频工作流。 HappyHorse
2
Seedance 2.0 ByteDance
2026-04-21
视频音频文字图片
字节 Seed 系列视频生成模型,强调可控镜头、主体一致性和音视频生成能力。 ByteDance Seed
3
Sora 2 OpenAI
2025-09-30
视频音频文字
视频和音频生成模型,适合复杂动作、镜头和声画同步场景。 OpenAI
4
LTX-2.3 Lightricks
2026-05
视频音频图片文字
Lightricks 开源视频模型,支持音画同步,适合快速图生视频、关键帧和可控视频编辑实验。 LTX
5
Veo 3 Google DeepMind
2025-05
视频音频文字图片
Google 视频生成模型,支持高质量视频与音频生成。 Google DeepMind
6
Runway Gen-4 Runway
2025-03
视频图片文字
视频生成模型,适合可控角色、场景和镜头一致性。 Runway

数字人

按人物驱动、口型同步、姿态控制和研究开放度排序。

排名 模型 发布时间 能力 说明 来源
1
OmniHuman-1 ByteDance
2025-02
视频音频图片
人物视频生成研究模型,可由图像和音频驱动自然人物动作。 ByteDance Research
2
EMO Alibaba
2024-02
视频音频图片
肖像音频驱动视频模型,适合说话人和唱歌头像研究。 EMO Project
3
Hallo2 Fudan University
2024-09
视频音频图片
开源音频驱动肖像动画模型,适合自托管数字人实验。 GitHub

图片编辑

按指令编辑、局部修改、风格保持和文字编辑能力排序。

排名 模型 发布时间 能力 说明 来源
1
GPT Image 1.5 OpenAI
2025-12-16
图片文字
图像生成和编辑一体化,适合产品图、海报和视觉资产迭代。 TechCrunch
2
FLUX.2 Black Forest Labs
2025-11-25
图片文字
FLUX.2 提供多参考图编辑和局部可控修改,按要求置于第 2。 Black Forest Labs
3
Qwen-Image-Edit Alibaba
2025-08
图片文字
Qwen 图像编辑模型,支持语义修改、风格迁移、物体旋转和中英文海报文字编辑。 Hugging Face
4
FLUX.1 Kontext Black Forest Labs
2025-05
图片文字
以图片上下文为核心的编辑模型,适合局部修改和风格保持。 Black Forest Labs
5
SeedEdit 3.0 ByteDance
2025
图片文字
指令式图片编辑模型,适合语义改图和局部重绘。 ByteDance Seed

视频编辑

按文本改视频、镜头重写、时间一致性和编辑控制排序。

排名 模型 发布时间 能力 说明 来源
1
Runway Aleph Runway
2025-07
视频图片文字
视频编辑模型,适合通过自然语言修改已有视频片段。 Runway
2
Seedance 2.0 ByteDance
2026-04-21
视频音频文字图片
适合文本/图片到视频、镜头改写和主体一致性视频生成。 ByteDance Seed
3
LTX-2.3 Lightricks
2026-05
视频音频图片文字
开源视频生成和编辑模型,适合关键帧控制、快速迭代和自托管实验。 LTX
4
Sora 2 OpenAI
2025-09-30
视频音频文字
支持故事板和图生视频流程,适合重新组织镜头和生成补帧素材。 OpenAI
5
Veo 3 Google DeepMind
2025-05
视频音频图片文字
适合按文本和参考素材生成、延展或重写视频片段。 Google DeepMind
About

在 AI 主导的世界中,成为你的工具军刀。

本站以收录免费、开源、优质 AI 工具为主,帮助你跟随趋势、快速选型,并直达官网、GitHub 与文档。 按 Ctrl+D 收藏本站,后续会持续更新分类、专题和工具详情。