我们如何在几分钟的规模上生成视频,而不偏离或忘记历史背景? 我们引入了上下文混合。下面每个一分钟的视频都是我们模型在一次性处理中的直接输出,没有后期处理、拼接或编辑。 1/4
83.62K