【新智元导读】世界首个实时AI扩散视频模型炸场,Karpathy亲自站台,颠覆AI视频交互,0延迟+无限时长,每秒24帧不卡顿,MirageLSD首次实现AI直播级生成。 另外一个最有趣的应用就是,不用再担心直播设备不好,你可以直接将直播画面转化为全新场景,即使你的设备再差,也可以进行「完美直播」。 即便是当下接近实时性能的最快系统,通常也只能分块生成视频,这会引入不可避免的延迟,从而无法满足交互式使用的需求。 引入了历史增强技术,其中模型在经过损坏的历史帧输入上进行微调。这使其能够预测并修正输入中的伪影,从而增强其对自回归生成中常见漂移的鲁棒性。 像MovieGen、WAN和Veo这样的定长模型可以生成高质量的视频片段,但它们的非因果设计和全片段推理会引入延迟,并且无法实现实时交互或超出预定义长度的扩展。 虽然这种方法提高了可扩展性,但分块推理仍然限制了响应速度,并存在误差累积的问题,限制了生成长度,排除了真正的交互可能性。 实时扩散模型MirageLSD将其扩展到开放领域、可提示的视频,实现零延迟、实时速度和无限稳定性——这是之前的工作未能同时实现的组合。 挑战包括内核启动开销、在连续层之间重叠计算的机会有限,以及对内存传输延迟的敏感性增加,尤其是在多设备设置中。 Hopper优化的超大内核:通过利用类似于MegaKernels的若干新兴技术,针对NVIDIA Hopper GPU架构优化了模型执行,以在小批量尺寸限制下最小化每层模型的延迟。进一步在这些内核中集成了GPU-GPU通信,以保证设备之间无缝通信,并通过计算操作进行掩蔽。 架构感知剪枝:将模型架构与系统级优化紧密集成,可以在每次模型执行时减少所需的FLOPs数量,同时通过高级技术更好地利用张量核心。这些技术将参数大小调整为特定GPU常量,并使用专用硬件支持进一步挖掘模型权重中的稀疏性。这些剪枝方法旨在根据底层GPU架构调整模型架构,以最大化GPU的利用率,同时通过微调模型使其对移除各种参数具有鲁棒性,从而减少整体所需的FLOPs数量。 快捷蒸馏:为了减少生成所需的扩散步骤数量,应用了快捷蒸馏方法,训练较小的模型以匹配较大教师模型的去噪轨迹。该方法显著减少了每帧所需的模型评估次数,同时保持了输出质量与时间一致性。更重要的是,它避免了在长序列中引入新的伪影或漂移。 这些技术共同使LSD能够将高保真视频扩散的延迟从每个片段几秒降低到每帧不到40毫秒,从而实现真正实时、可交互的生成。


