模型排行

向量

按检索质量、维度灵活性、多语言和多模态覆盖综合排序。

排名	模型	发布时间	上下文 / 维度	能力	说明	来源
1	Cohere Embed v4 Cohere	2025-04-15	128K tokens 256 / 512 / 1024 / 1536	向量文字图片	多模态向量模型，支持文本、图片和混合文档检索，维度可裁剪。	Cohere
2	开源 Qwen3-Embedding-8B Alibaba	2025-06-05	32K tokens 8B / 4B / 0.6B	向量文字	Qwen3 系列开源向量模型，覆盖多语言、跨语言检索、代码检索和重排序任务。	arXiv
3	text-embedding-3-large OpenAI	2024-01-25	3072	向量文字	OpenAI 高质量通用文本向量模型，适合多语言 RAG 和语义检索。	OpenAI Docs
4	voyage-3 Voyage AI	2024-09-18	1024	向量文字	小尺寸高质量文本向量模型，适合代码、金融、法律和多语言检索。	Voyage AI
5	开源 BGE-M3 BAAI	2024-02-01	8192 tokens 1024	向量文字	开源多语言混合检索模型，单模型支持 dense、sparse 和 multi-vector。	Hugging Face

文本推理

按复杂推理、数学、代码和长任务稳定性排序。

排名	模型	发布时间	上下文 / 维度	能力	说明	来源
1	GPT-5.5 OpenAI	2026-04-23	1M tokens	文字图片	综合推理、编程和长任务能力强，适合作为闭源旗舰文本模型基准。	OpenAI
2	Gemini 3.1 Pro Google DeepMind	2026-02-19	1M+ tokens	文字图片音频视频	Gemini 3 Pro 的升级核心智能模型，复杂推理和多模态能力更强。	Google Blog
3	DeepSeek V4 DeepSeek	2025-12	1M tokens	文字	推理、代码和长上下文能力升级，补入 DeepSeek 新一代闭源模型。	DeepSeek API Docs
4	Claude Sonnet 4.5 Anthropic	2025-09-29	1M tokens	文字图片	长上下文、代码和 agent 场景表现突出，适合复杂工程与文档任务。	Anthropic Docs
5	Gemini 3 Pro Google DeepMind	2026-02-19	1M+ tokens	文字音频图片视频	原生多模态能力强，适合图片、视频、音频和文本混合理解任务。	Android Central
6	开源 Kimi K2 Moonshot AI	2025-07	128K tokens	文字	Moonshot 开源 MoE 模型，强调 agentic 能力、代码和复杂推理任务。	GitHub
7	GLM-5.1 Zhipu AI	2026-03	203K tokens	文字	智谱 GLM 新一代混合推理模型，适合中文推理、工具调用和企业级任务。	SCBX R&D
8	开源 GLM-4.5 Zhipu AI	2025-08	128K tokens	文字	智谱开源 MoE 模型，统一推理、编程和 agent 能力，采用 MIT 许可证。	Hugging Face
9	开源 DeepSeek-R1 DeepSeek	2025-01-20	128K tokens	文字	开源推理模型代表，适合数学、代码和可自托管推理工作流。	DeepSeek Docs
10	开源 Qwen3-235B-A22B Alibaba	2025-04-28	128K tokens	文字	开源混合推理模型，覆盖多语言、推理和编程任务。	TechCrunch

写作

按长文表达、可控风格、中文体验和编辑质量排序。

排名	模型	发布时间	上下文 / 维度	能力	说明	来源
1	Claude Sonnet 4.5 Anthropic	2025-09-29	1M tokens	文字图片	长文结构、润色和文档编辑稳定，适合高质量写作流程。	Anthropic Docs
2	GPT-5.5 OpenAI	2026-04-23	1M tokens	文字图片	通用写作、头脑风暴和多轮改稿能力均衡。	OpenAI
3	Gemini 3.1 Pro Google DeepMind	2026-02-19	1M+ tokens	文字图片音频视频	适合结合图片、视频或资料的高质量多模态写作与整理。	Google Blog
4	Gemini 3 Pro Google DeepMind	2026-02-19	1M+ tokens	文字音频图片视频	适合结合图片、视频或资料的多模态写作与整理。	Android Central
5	GLM-5.1 Zhipu AI	2026-03	203K tokens	文字	中文写作、企业知识整理和工具调用场景可用性高。	SCBX R&D
6	开源 Kimi K2 Moonshot AI	2025-07	128K tokens	文字	开源模型，适合长文生成、技术文档和 agent 内容流程。	GitHub
7	开源 Qwen3-235B-A22B Alibaba	2025-04-28	128K tokens	文字	开源中文写作与多语言生成可用性高。	TechCrunch

上下文长度

按公开上下文窗口长度和长上下文可用性排序。

排名	模型	发布时间	上下文 / 维度	能力	说明	来源
1	开源 Llama 4 Scout Meta	2025-04-05	10M tokens	文字图片	超长上下文开源多模态模型，适合长文档和跨文档检索推理。	Meta
2	Gemini 3.1 Pro Google DeepMind	2026-02-19	1M+ tokens	文字图片音频视频	Gemini 3 Pro 的升级核心智能模型，复杂推理和多模态能力更强。	Google Blog
3	Gemini 3 Pro Google DeepMind	2026-02-19	1M+ tokens	文字音频图片视频	原生多模态能力强，适合图片、视频、音频和文本混合理解任务。	Android Central
4	GPT-5.5 OpenAI	2026-04-23	1M tokens	文字图片	综合推理、编程和长任务能力强，适合作为闭源旗舰文本模型基准。	OpenAI
5	DeepSeek V4 DeepSeek	2025-12	1M tokens	文字	DeepSeek 新一代推理和通用文本模型，适合数学、代码和长上下文任务。	DeepSeek API Docs
6	Claude Sonnet 4.5 Anthropic	2025-09-29	1M tokens	文字图片	长上下文、代码和 agent 场景表现突出，适合复杂工程与文档任务。	Anthropic Docs
7	GLM-5.1 Zhipu AI	2026-03	203K tokens	文字	智谱 GLM 新一代混合推理模型，适合中文推理、工具调用和企业级任务。	SCBX R&D
8	开源 Kimi K2 Moonshot AI	2025-07	128K tokens	文字	Moonshot 开源 MoE 模型，强调 agentic 能力、代码和复杂推理任务。	GitHub
9	开源 DeepSeek-R1 DeepSeek	2025-01-20	128K tokens	文字	开源推理模型代表，适合数学、代码和可自托管推理工作流。	DeepSeek Docs

编程

按代码生成、仓库理解、修复和 agentic coding 表现排序。

排名	模型	发布时间	上下文 / 维度	能力	说明	来源
1	GPT-5.5 OpenAI	2026-04-23	1M tokens	文字图片	OpenAI 定位为强 agentic coding 模型，适合复杂代码任务。	OpenAI
2	Claude Sonnet 4.5 Anthropic	2025-09-29	1M tokens	文字图片	工程协作和长代码库理解能力突出。	Anthropic Docs
3	DeepSeek V4 DeepSeek	2025-12	1M tokens	文字	适合代码推理、算法问题和长上下文仓库理解。	DeepSeek API Docs
4	开源 Kimi K2 Moonshot AI	2025-07	128K tokens	文字	开源 agentic coding 表现突出，适合工具调用和复杂代码任务。	GitHub
5	开源 Qwen3-Coder Alibaba	2025-07	128K tokens	文字	开源 agentic coding 模型，适合自托管代码生成与修复。	TechCrunch
6	开源 GLM-4.5 Zhipu AI	2025-08	128K tokens	文字	开源模型，适合代码代理、工具调用和企业自托管。	Hugging Face
7	GLM-5.1 Zhipu AI	2026-03	203K tokens	文字	适合中文代码助手、企业内部工具调用和技术文档任务。	SCBX R&D
8	开源 DeepSeek-R1 DeepSeek	2025-01-20	128K tokens	文字	开源推理能力可用于算法、调试和代码审查。	DeepSeek Docs

Agent

按工具调用、长任务执行、代码/浏览器任务和上下文保持排序。

排名	模型	发布时间	上下文 / 维度	能力	说明	来源
1	GPT-5.5 OpenAI	2026-04-23	1M tokens	文字图片	适合长程任务、工具调用和复杂办公/代码 agent 流程。	OpenAI
2	Claude Sonnet 4.5 Anthropic	2025-09-29	1M tokens	文字图片	适合代码 agent、文档 agent 和长上下文任务。	Anthropic Docs
3	DeepSeek V4 DeepSeek	2025-12	1M tokens	文字	适合推理密集型 agent、代码代理和长上下文规划。	DeepSeek API Docs
4	开源 Kimi K2 Moonshot AI	2025-07	128K tokens	文字	开源 agentic 模型，适合工具调用、编码和自动化流程。	GitHub
5	Gemini 3.1 Pro Google DeepMind	2026-02-19	1M+ tokens	文字图片音频视频	多模态输入下的 agent 任务覆盖面广，并优先于 Gemini 3 Pro。	Google Blog
6	Gemini 3 Pro Google DeepMind	2026-02-19	1M+ tokens	文字音频图片视频	多模态输入下的 agent 任务覆盖面广。	Android Central
7	GLM-5.1 Zhipu AI	2026-03	203K tokens	文字	适合中文办公 agent、知识库任务和工具调用流程。	SCBX R&D
8	开源 GLM-4.5 Zhipu AI	2025-08	128K tokens	文字	开源 agent 基础模型，适合自托管中文工具调用流程。	Hugging Face
9	开源 Llama 4 Scout Meta	2025-04-05	10M tokens	文字图片	开源长上下文 agent 实验基础模型。	Meta

多模态

按文字、音频、图片、视频理解覆盖和综合能力排序。

排名	模型	发布时间	上下文 / 维度	能力	说明	来源
1	Gemini 3.1 Pro Google DeepMind	2026-02-19	1M+ tokens	文字图片音频视频	Gemini 3 Pro 的升级核心智能模型，复杂推理和多模态能力更强。	Google Blog
2	Gemini 3 Pro Google DeepMind	2026-02-19	1M+ tokens	文字音频图片视频	原生多模态能力强，适合图片、视频、音频和文本混合理解任务。	Android Central
3	GPT-5.5 OpenAI	2026-04-23	1M tokens	文字图片	综合推理、编程和长任务能力强，适合作为闭源旗舰文本模型基准。	OpenAI
4	Claude Sonnet 4.5 Anthropic	2025-09-29	1M tokens	文字图片	长上下文、代码和 agent 场景表现突出，适合复杂工程与文档任务。	Anthropic Docs
5	开源 Llama 4 Scout Meta	2025-04-05	10M tokens	文字图片	超长上下文开源多模态模型，适合长文档和跨文档检索推理。	Meta

图片

按图像生成质量、文字渲染、风格控制和商业可用性排序。

排名	模型	发布时间	能力	说明	来源
1	GPT Image 1.5 OpenAI	2025-12-16	图片文字	高质量图像生成与编辑模型，适合海报、产品图和视觉概念生成。	TechCrunch
2	开源 FLUX.2 Black Forest Labs	2025-11-25	图片文字	FLUX.2 系列支持文本生图、单参考图编辑和多参考图编辑，开源 klein 4B 使用 Apache 2.0。	Black Forest Labs
3	开源 Qwen-Image Alibaba	2025-08-04	图片文字	Qwen 系列开源图像基础模型，擅长中英文文字渲染、通用图像生成和精确图像编辑。	Hugging Face
4	开源 Z-Image-Turbo Tongyi-MAI	2025-11-27	图片文字	通义 MAI 开源 6B 高效文生图模型，主打 8 步快速生成、低显存部署和中英文文字渲染。	GitHub
5	Imagen 4 Google DeepMind	2025-05-20	图片文字	Google 图像生成模型，适合高质量视觉资产与文字渲染场景。	Google Blog
6	FLUX.1 Kontext Black Forest Labs	2025-05	图片文字	图像生成与上下文编辑模型，适合可控视觉修改。	Black Forest Labs

TTS

按自然度、情绪表达、多语言和对话能力排序。

排名	模型	发布时间	能力	说明	来源
1	Eleven v3 ElevenLabs	2025-06-03	音频文字	表现力强的 TTS 模型，支持多语言、多说话人和情绪化语音标签。	ElevenLabs
2	IndexTTS 2.5 ByteDance	2025-10	音频文字	开源工业级零样本 TTS 模型，强调音色克隆、韵律和情感控制。	arXiv
3	开源 Qwen3-TTS Alibaba	2026-01-23	音频文字	Qwen 系列开源语音合成模型，支持多语言 TTS、音色控制和面向对话/内容生产的语音输出。	Hugging Face
4	gpt-4o-mini-tts OpenAI	2025-03	音频文字	OpenAI 语音生成模型，适合低延迟应用内 TTS。	OpenAI Docs
5	Gemini 2.5 Pro TTS Google	2025-05	音频文字	Gemini 语音生成模型，适合多语言语音输出。	Google AI Docs

音乐

按音乐生成质量、可控性、开源可用性和声音设计能力排序。

排名	模型	发布时间	能力	说明	来源
1	Suno v4.5+ Suno	2025-05	音频文字	面向完整歌曲生成的音乐模型，支持更长歌曲、更丰富风格控制和人声/编曲一体化创作。	Suno
2	开源 HeartMula HeartMula	2026-01	音频文字	面向音乐创作的 AI 模型/平台，适合从提示词生成歌曲、旋律和可迭代的音乐草稿。	arXiv
3	开源 Stable Audio Open Stability AI	2024-06-05	音频文字	开源文本到音频模型，适合音效、节奏和短音乐素材生成。	TechCrunch
4	开源 MusicGen Meta	2023-06	音频文字	开源音乐生成模型，适合研究和自托管音乐生成实验。	Meta Audiocraft
5	Lyria 2 Google DeepMind	2025-05	音频文字	Google 音乐生成模型，适合高保真音乐创作场景。	Google DeepMind

视频

按运动一致性、镜头控制、声音同步和可用性排序。

排名	模型	发布时间	能力	说明	来源
1	HappyHorse-1.0 HappyHorse	2026-04-16	视频音频文字图片	视频生成模型，突出物理一致性、运镜控制和文本/图像到视频工作流。	HappyHorse
2	Seedance 2.0 ByteDance	2026-04-21	视频音频文字图片	字节 Seed 系列视频生成模型，强调可控镜头、主体一致性和音视频生成能力。	ByteDance Seed
3	Sora 2 OpenAI	2025-09-30	视频音频文字	视频和音频生成模型，适合复杂动作、镜头和声画同步场景。	OpenAI
4	开源 LTX-2.3 Lightricks	2026-05	视频音频图片文字	Lightricks 开源视频模型，支持音画同步，适合快速图生视频、关键帧和可控视频编辑实验。	LTX
5	Veo 3 Google DeepMind	2025-05	视频音频文字图片	Google 视频生成模型，支持高质量视频与音频生成。	Google DeepMind
6	Runway Gen-4 Runway	2025-03	视频图片文字	视频生成模型，适合可控角色、场景和镜头一致性。	Runway

数字人

按人物驱动、口型同步、姿态控制和研究开放度排序。

排名	模型	发布时间	能力	说明	来源
1	OmniHuman-1 ByteDance	2025-02	视频音频图片	人物视频生成研究模型，可由图像和音频驱动自然人物动作。	ByteDance Research
2	EMO Alibaba	2024-02	视频音频图片	肖像音频驱动视频模型，适合说话人和唱歌头像研究。	EMO Project
3	开源 Hallo2 Fudan University	2024-09	视频音频图片	开源音频驱动肖像动画模型，适合自托管数字人实验。	GitHub

图片编辑

按指令编辑、局部修改、风格保持和文字编辑能力排序。

排名	模型	发布时间	能力	说明	来源
1	GPT Image 1.5 OpenAI	2025-12-16	图片文字	图像生成和编辑一体化，适合产品图、海报和视觉资产迭代。	TechCrunch
2	开源 FLUX.2 Black Forest Labs	2025-11-25	图片文字	FLUX.2 提供多参考图编辑和局部可控修改，按要求置于第 2。	Black Forest Labs
3	开源 Qwen-Image-Edit Alibaba	2025-08	图片文字	Qwen 图像编辑模型，支持语义修改、风格迁移、物体旋转和中英文海报文字编辑。	Hugging Face
4	FLUX.1 Kontext Black Forest Labs	2025-05	图片文字	以图片上下文为核心的编辑模型，适合局部修改和风格保持。	Black Forest Labs
5	SeedEdit 3.0 ByteDance	2025	图片文字	指令式图片编辑模型，适合语义改图和局部重绘。	ByteDance Seed

视频编辑

按文本改视频、镜头重写、时间一致性和编辑控制排序。

排名	模型	发布时间	能力	说明	来源
1	Runway Aleph Runway	2025-07	视频图片文字	视频编辑模型，适合通过自然语言修改已有视频片段。	Runway
2	Seedance 2.0 ByteDance	2026-04-21	视频音频文字图片	适合文本/图片到视频、镜头改写和主体一致性视频生成。	ByteDance Seed
3	开源 LTX-2.3 Lightricks	2026-05	视频音频图片文字	开源视频生成和编辑模型，适合关键帧控制、快速迭代和自托管实验。	LTX
4	Sora 2 OpenAI	2025-09-30	视频音频文字	支持故事板和图生视频流程，适合重新组织镜头和生成补帧素材。	OpenAI
5	Veo 3 Google DeepMind	2025-05	视频音频图片文字	适合按文本和参考素材生成、延展或重写视频片段。	Google DeepMind

向量

文本推理

写作

上下文长度

编程

Agent

多模态

图片

TTS

音乐

视频

数字人

图片编辑

视频编辑

在 AI 主导的世界中，成为你的工具军刀。

友情链接