其中,文生视频模型和图生视频模型均为业界首次使用MoE架构(混合专家模型:Mixture of Experts),总参数量为27B,激活参数量高达14B,均由高噪声专家模型和低噪专家模型组成,分别负责视频的整体布局和细节完善,在同参数规模下,可节省约50%的计算资源消耗。 这是阿里在AI视频生成领域投下的一枚重要棋子。作为国内科技巨头在生成式AI赛道的最新动作,这样的技术路径与开源策略既体现了行业发展趋势,也折射出阿里在技术竞争中的布局考量。 通过动态选择部分专家(子模型)参与推理任务,MoE架构能提高模型的计算效率和性能,尤其适用于大型神经网络模型的训练和推理。 这种架构并非凭空出现,而是在现有视频生成技术瓶颈下的针对性设计:将模型拆分为高噪声专家模型与低噪专家模型,前者负责视频整体布局,后者专注细节完善,形成了分工明确的处理机制。 首先这并非易事,这需要有高度的模型架构设计与优化能力。就像智谱AI发布的旗舰模型GLM-4.5,激活量占比9%,就能实现API价格仅为Claude的10%,原因也是智谱AI拥有对Transformer架构持续积累了长达4年的优化成果。 要构建一个能合理分配不同专家模型职责,确保在不同去噪阶段高噪声专家模型与低噪专家模型有序工作的架构,需要对视频生成过程中的数据流向、处理逻辑有极为精准的把握。 同时,在参数激活的动态管理方面,如何根据输入数据的特征、去噪任务的需求,在众多参数中准确激活对应的14B参数,避免无效激活造成资源浪费,还要保证激活参数间协同工作的高效性,是研发团队面临的巨大挑战。 这涉及到复杂的算法设计与大量的实验调试,以找到最适合视频生成任务的参数激活策略。换句话说,这需要技术团队对模型任务所需要的数据有精确把控,以及为此采取了高效的激活策略和方法。 当前AI视频生成领域呈现闭源竞赛与开源探索并行的格局,头部公司多倾向于将核心模型作为商业服务的技术壁垒,而开源模式则试图通过生态共建扩大技术影响力。 开发者可在GitHub、HuggingFace等平台获取模型代码,这降低了视频生成技术的研究门槛。对于中小公司而言,无需从零构建模型,可基于现有框架进行二次开发,这在一定程度上会加速技术的场景落地。 在行业竞争维度,此次开源可能加剧视频生成技术的迭代速度。此前,国内外已有多家公司推出视频生成模型,但多以闭源API服务为主。 在影视前期策划中,创作者可通过文本或图片快速生成片段,用于可视化创意方案;在广告行业,可辅助制作产物展示短视频的初稿。这些场景对视频时长要求不高,却能显著提升前期沟通效率。 但其局限性也同样明显:单次生成5秒高清视频的时长,意味着复杂叙事仍需人工拼接,与“电影级”的实际生产需求存在差距。 尽管阿里官方表示未来将提升时长,但视频生成时长的延长并非简单的技术叠加,而是需要解决更长时序下的逻辑连贯性、画面一致性等问题,这对模型的时空建模能力提出了更高要求。 Wan2.2的特色在于MoE架构带来的资源效率提升,这一差异化路径能否在激烈竞争中占据一席之地,取决于其在实际场景中的落地效果。 对于整个行业而言,视频生成技术仍处于快速进化阶段。从文本生成图像到文本生成视频,技术跨越的背后是对算力、数据、算法的综合考验。 未来,随着模型时长的延长、细节处理能力的提升,视频生成技术可能会逐步渗透到更多领域。但这一过程需要时间,且必然伴随着技术瓶颈的突破与商业模式的验证。


