Step-Video-T2V

2个月前发布 4 00

Step-Video-T2V 是由阶跃星辰与吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。

收录时间:
2025-02-28
Step-Video-T2VStep-Video-T2V

Step-Video-T2V是由 阶跃星辰 与 吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。

其主要特点功能:

  1. 强大的模型参数:拥有 300 亿参数,能够生成最长 204 帧的视频,支持高分辨率和流畅的动态效果。
  2. 高效压缩技术:采用深度压缩变分自编码器(Video-VAE),实现 16×16 空间压缩和 8x 时间压缩,同时保持视频的高质量。
  3. 双语支持:内置双语文本编码器,支持中文和英文输入,适应多语言用户需求。
  4. 视觉质量优化:通过视频偏好优化(Video-DPO)技术,减少视频中的伪影,提升视觉效果,使生成的视频更加真实和自然。
  5. 多场景适用:在运动、风景、动物、节日、3D 动画等多个类别中表现出色,适用于创意内容制作、广告、教育等领域。

Step-Video-T2V 是一款开源模型,用户可以通过其 GitHub 仓库获取代码和模型权重,方便开发者进行二次开发和应用。

Step-Video-T2V:一款开源的多模态文本生成视频模型

数据统计

相关导航

CogVideo

CogVideo是目前最大的通用领域文本到视频生成预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。用于文本到视频的生成。它是基于Transformer架构的,旨在通过理解和转换文本描述来生成相应的视频内容。CogVideo能够处理大量的文本-视频对数据,并通过学习这些数据的模式来生成与文本描述相匹配的视频。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...