DiT:2022年12月 《Scalable Diffusion Models with Transformers 》论文发表,提出将传统扩散模型的U-Net替换为Transformer,从而提升传统扩散模型的可扩展性。采用AdaLN-Zero(自适应归一化)注入条件信息(文本/图像/轨迹),取代交叉注意力。2024年2月OpenAI发布Sora,验证了Diffusion和Transformer结合的有效性,并带动DiT架构成为重点方向。根据Sora发布的技术文章,Sora模型先将视频压缩到低维潜在空间中,然后将表示分解为时空patch,从而实现了视频的“patch化”,采用DiT架构,在多个领域展示了显著的扩展性能。同时对比过去的视频生成模型,Sora生成视频时长显著提升(60秒),对于自然语言和物理世界规律有了更强的理解能力。