我們如何在幾分鐘的規模上生成視頻,而不偏離或忘記歷史背景? 我們引入了上下文混合。下面每個一分鐘的視頻都是我們模型在一次性處理中的直接輸出,沒有後期處理、拼接或編輯。 1/4
87.63K