VideoPoet

VideoPoet是由Google开发的一款语言大模型，旨在解决视频生成领域的挑战。以下是它的主要功能：

支持多种视频生成任务，包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。

与传统扩散模型不同，VideoPoet将多个视频生成功能融合在一个语言模型中，提供更高的集成度和学习能力。

VideoPoet 是一种简单的建模方法，可以将任何自回归语言模型或大型语言模型(LLM)转换为高质量的视频生成器。它包含一些简单的组件：预训练的 MAGVIT V2 视频分词器和 SoundStream 音频分词器将可变长度的图像、视频和音频剪辑转换为统一词汇表中的离散代码序列。这些代码与基于文本的语言模型兼容，有助于与文本等其他模式的集成。

如需了解更多详情，建议到信息技术类论坛查找或直接询问相关技术人员。


官方网址：sites.research.google/videopoet/

前往官网

正文

VideoPoet

相关阅读

Maester

Detangle.ai

discord聊天记录总结

Consensus，提取科研报告内容

目录[+]