公告

记录自己技术增长过程的博客~

2026年AI生成模型全景：语音、图像、视频最新进展

2026-3-19 1:48

|

新闻

|

28

1114 字

|

8 分钟

本文最后更新于30 天前，其中的信息可能已经过时，如有错误请发送邮件到big_fw@foxmail.com

2026年AI生成模型全景：语音、图像、视频最新进展

整理时间：2026年3月18日-19日
本文汇总了截至2026年3月最新的开源AI生成模型，涵盖语音合成（TTS）、语音识别（ASR）、图像生成和视频生成四大领域。

🎙️ 一、语音合成（TTS）模型

2026年3月推荐模型

模型	发布时间	特点	显存需求	许可
Fish Speech V1.5	2025	当前最佳开源TTS，ELO评分1339，支持中英日三语	8-12GB	Apache 2.0
CosyVoice2-0.5B	2025	超低延迟（150ms），适合实时应用	4-8GB	Apache 2.0
Chatterbox	2025年5月	最像真人，支持笑声/咳嗽等副语言	6-10GB	MIT
GPT-SoVITS v2	2025	中文克隆最强，5秒样本即可克隆	6-10GB	开源
Orpheus	2025年3月	多规格（150M-3B），适合不同硬件	3-16GB	Apache 2.0
Kokoro v1.0	2025年1月	超轻量（82M参数），CPU实时运行	2GB	Apache 2.0

4070TiS显卡推荐

高质量：Fish Speech V1.5 或 Chatterbox
低延迟：CosyVoice2-0.5B（150ms）
中文克隆：GPT-SoVITS v2

🎤 二、语音识别（ASR）模型

2026年3月推荐模型

模型	发布时间	特点	显存需求	许可
Whisper Large V3 Turbo	2024年10月	最流行，5.4倍加速	6-10GB	MIT
Voxtral	2025	当前最佳，CER仅3.8%	8-12GB	开源
Qwen2-Audio	2025	阿里出品，FastConformer+Qwen3	6-10GB	开源
Parakeet TDT 1.1B	2025	最快，实时因子>2000x	2-4GB	CC-BY-4.0
Distil-Whisper	2024	6倍加速，精度损失<1%	4-6GB	MIT
SenseVoice	2024	中文特化，支持多方言	4-6GB	开源

4070TiS显卡推荐

最高精度：Voxtral 或 Whisper Large V3 Turbo
实时转录：Parakeet TDT
中文场景：SenseVoice 或 Qwen2-Audio

🎨 三、图像生成模型

2026年3月推荐模型

模型	发布时间	特点	显存需求	许可
FLUX.2 Pro/Ultra	2025年11月	当前最佳，120亿参数	16-24GB	部分开源
FLUX.2 [klein]	2025	消费级首选，40亿参数	13GB	开源权重
GLM-Image	2026年1月	首个开源工业级自回归模型	12-16GB	开源
Stable Diffusion 3.5	2024	生态最丰富	8-16GB	社区许可

4070TiS显卡推荐

最高质量：FLUX.2 Pro
本地开源：FLUX.2 [klein] 或 GLM-Image

🎬 四、视频生成模型

2026年3月推荐模型

模型	发布时间	特点	时长/分辨率	许可
Sora 2	2025	当前最佳，电影级物理	60秒/1080p	商业
Google Veo 3.1	2025	首个原生4K	60秒/4K	商业
Kling 3.0	2026年2月	快手出品，音画协同	15秒/4K	商业+部分开源
Seedance 2.0	2026年2月	字节出品，四模态突破	15秒/1080p	商业
Wan2.2 (MoE)	2025	开源最强，阿里出品	15秒/1080p	开源
Open-Sora 2.0	2025	110亿参数	15秒/720p	Apache 2.0
HunyuanVideo	2025	腾讯出品	15秒/720p	开源

4070TiS显卡推荐

开源本地跑：Wan2.2 (MoE) — 16GB可跑
更高质量：Open-Sora 2.0 或 HunyuanVideo

📊 五、2024→2026进展对比

类别	2024年现状	2026年3月现状
TTS	ChatTTS、GPT-SoVITS初代	Fish Speech V1.5、Chatterbox全面超越
ASR	Whisper V3独大	Voxtral、Qwen2-Audio多强竞争
图像	SDXL、Midjourney v6	FLUX.2全面领先，120亿参数
视频	Sora未公开	Sora 2/Veo 3.1电影级，Wan2.2开源可用

💡 六、4070TiS完整配置建议

用途	推荐模型	预计显存
中文TTS（实时）	CosyVoice2-0.5B	4-6GB
中文TTS（最高质量）	Fish Speech V1.5	10-12GB
声音克隆	GPT-SoVITS v2	6-10GB
语音识别	Whisper Large V3 Turbo	8-10GB
图像生成	FLUX.2 [klein] 4B	13GB
视频生成（开源）	Wan2.2 (MoE)	14-16GB

本文内容基于2026年3月18-19日的技术调研，使用Tavily搜索API获取最新信息。

文末附加内容

AI TTS 图像生成大模型深度学习视频生成语音识别

暂无评论

发送评论编辑评论

Markdown

悄悄话

邮件提醒

|´・ω・)ノ

ヾ(≧∇≦*)ゝ

(☆ω☆)

（╯‵□′）╯︵┴─┴

￣﹃￣

(/ω＼)

∠( ᐛ 」∠)＿

(๑•̀ㅁ•́ฅ)

→_→

୧(๑•̀⌄•́๑)૭

٩(ˊᗜˋ*)و

(ノ°ο°)ノ

(´இ皿இ｀)

⌇●﹏●⌇

(ฅ´ω`ฅ)

(╯°A°)╯︵○○○

φ(￣∇￣o)

ヾ(´･･｀｡)ノ"

( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃

(ó﹏ò｡)

Σ(っ °Д °;)っ

( ,,´･ω･)ﾉ"(´っω･｀｡)

╮(╯▽╰)╭

o(*////▽////*)q

＞﹏＜

( ๑´•ω•) "(ㆆᴗㆆ)

颜文字

Emoji

小恐龙

花!