麻花传媒91mv在线观看

EN
www.dcsz.com.cn

B站9.1视频人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

本文由中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队共同完成。第一作者郑晨宇是中国人民大学高瓴人工智能学院二年级博士生,主要研究方向为基础模型的优化、泛化和可扩展性理论,导师为李崇轩副教授,论文为其在字节跳动Seed实习期间完成。第二作者张新雨是字节跳动研究员,主要研究方向为视觉生成模型。李崇轩副教授为唯一通讯作者。 近年来,diffusion Transformers已经成为了现代视觉生成模型的主干网络。随着数据量和任务复杂度的进一步增加,diffusion Transformers的规模也在快速增长。然而在模型进一步扩大的过程中,如何调得较好的超参(如学习率)已经成为了一个巨大的问题,阻碍了大规模diffusion Transformers释放其全部的潜能。 为此,人大高瓴李崇轩团队和字节跳动Seed团队的研究员引入了大语言模型训练中的μP理论,并将其扩展到diffusion Transformers的训练中。μP通过调整网络不同模块的初始化和学习率,实现不同大小diffusion Transformers共享最优的超参,使得小模型上搜到的超参可以直接迁移到最终大模型上进行训练,从而极大地减小了超参搜索的耗费。 团队在DiT,PixArt和MMDiT(Stable Diffusion的基座)上进行了系统的大规模实验验证。在MMDiT的实验中,0.18B小模型上搜得的超参成功被用在18B大模型的训练中,并击败了人工专家的手调基线。其中,小模型超参搜索的计算量(FLOPs)仅是专家手调的3%左右。 μP全称为最大更新参数化(Maximal Update Parametrization),是Tensor Program无穷宽网络理论系列中的里程碑之作,相关结果已被理论证明适用于标准的Transformer架构。μP的算法实现简洁,对于应用最为广泛的AdamW优化器而言,μP只需要调整隐藏层权重的学习率,和输出层权重的系数以及初始化。μP在实际中被广泛发现能够实现不同大小的标准Transformer共享最优的超参,使得小模型上搜到的超参可以直接迁移到大模型,极大地减小了超参搜索的耗费。由于μP带来了稳定的超参迁移性质,它近年来已经被成功使用在大语言模型(标准Transformer)的预训练中。 然而,diffusion Transformers和标准Transformer存在较大的差异。从架构上来看,diffusion Transformers引入了额外的模块来处理并整合文本信息,如DiT中的adaLN block。从任务目标上来看,diffusion Transformers处理的是视觉的扩散学习任务,而标准Transformer主要处理的是语言的自回归学习任务。这两点差异意味着已有的μP形式及其超参迁移律在视觉diffusion Transformers中不一定成立。针对这一问题,团队从理论和实践上进行了系统的研究。 团队首先从理论上研究了主流diffusion Transformers的μP形式,包括DiT,U-ViT,PixArt-α和MMDiT。Tensor Program理论系列中的结果表明,如果网络架构能够被Tensor Program中定义的算子表示,那么现有的μP形式就能成立。基于这个理论技术,我们证明了:即使主流diffusion Transformers的结构不同于标准Transformer,它们也能够被Tensor Program表示,因此现有的μP理论和相关实践可以被无痛迁移到这些主流diffusion Transformers上。我们的证明技术也可以被迁移到其它的diffusion Transformers做类似的分析。 总之,diffusion Transformers的μP方法论可以由下图总结。我们首先基于μP理论,调节不同权重的系数、初始化和学习率。然后,我们在一系列小模型上搜索得到最优的超参。最后,我们将最优的超参直接迁移到大模型的训练。 首先,我们使用DiT网络在ImageNet数据集上系统地验证了:当网络宽度,数据批量大小和训练步数足够大时(如宽度达到144,批量大小达到256),超参便可以较为稳定地沿着不同的网络宽度,数据批量大小和训练步数进行迁移。这意味着我们能在网络宽度,数据批量大小和训练步数都更小的代理任务上搜索超参,然后迁移到最终大网络大数据的训练。 然后,为了验证μP超参迁移的有效性,我们将最优的超参(学习率2^-10)直接迁移到DiT-XL-2的训练中,我们发现,当模型训练到2.4M步时,FID-50K就已经超过了原论文7M步最终的FID-50K结果,DiT-XL-2-μP的收敛速度是原论文的2.9倍。这向我们展现了利用μP迁移超参做扩展的良好前景。 我们进一步在大规模的文生图任务上验证了μP扩展diffusion Transformers的有效性。我们首先考虑了流行的开源文生图模型PixArt-α,我们在0.04B的代理模型上搜索学习率,并迁移到最终0.61B大小PixArt-α的训练。其中,小模型搜索超参的计算量总和(FLOPs)仅为一次训练的5.5%。利用搜索得到的学习率,PixArt-α-μP在训练的过程中稳定地取得了比基线更好的效果。 最后,我们考虑了SD3的基座模型MMDiT,并将验证的规模提高到了18B的量级。为了能够给社区带来更多的可信的实践经验,我们在 4个超参(学习率,梯度裁剪值,REPA loss的权重以及warmup的步数)上进行了多达80次的随机搜索,总搜索计算量(FLOPs)约是人工手调的3%。在0.18B模型上的超参搜索结果表明,我们学习率,梯度裁剪值,REPA loss都对结果有影响,其中学习率的影响仍是最为关键的。而warmup的步数则对结果影响不大。 我们将0.18B模型上搜索的超参应用在了18B模型的训练上,不论从训练loss的变化还是从人工评测的结果,MMDiT-μP都稳定地超过了人工专家手调的基线,而μP的超参搜索FLOPs仅是人工手调的3%! 经过这一系列系统的实验探索,我们证明了μP是科学扩展diffusion Transformers的有效手段,我们也相信μP会是未来基础模型扩展的必备利器。通过本工作的大量努力,我们希望让社区了解μP理论,拥抱μP实践,思考理论上最优的智能扩展范式(模型大小,数据量,推理时间)。我们也相信,放眼人工智能的长远未来,类似μP的底层理论的发展仍然是必不可少的,也必将会在未来的大规模实践中有着不可或缺的一席之地。

B站9.1视频
B站9.1视频此外,印度的大部分石油和军事产品都来自俄罗斯,很少从美国购买。他们现在提出要将关税降至零,但为时已晚。他们几年前就应该这么做了。这只是一些简单的事实,供人们思考!!!不过,林倩并没有被眼前的困境打倒。她很快就调整了自己的心态,开始积极寻找新的出路。她听说技校那边缺少语文老师,而且还能教授写作课程,便打算去技校应聘。在她看来,虽然教学环境和对象发生了变化,但自己多年积累的教学经验和专业知识依然能够派上用场。她相信,只要自己努力适应新的教学要求,一定能够在技校的讲台上重新绽放光彩。B站9.1视频《国产少女免费观看电视剧字幕》而“盲目跟风”势必带来“浅尝辄止”。由于缺乏深入的理解和持久的耐心,对新的教育理念从理解到执行都容易停留在表面,没有内化于心外化于行,极度泛滥的“形式化”导致学生反感,最终虎头蛇尾,草草了事。今年的动画电影已经在电影市场杀疯了,《哪吒2》、《罗小黑战记2》、《浪浪山小妖怪》等个顶个的能打。而9月5号,又有一部号称“成年人限制级治愈童话”的电影即将上映,这就是《蜗牛回忆录》。
20250923 ? B站9.1视频据新华社消息,法国总统马克龙4日在首都巴黎举行的支持乌克兰“志愿联盟”线上会议结束后宣布,以欧洲国家为主的26国在会上正式承诺向乌克兰部署地面、海上或空中部队作为“保障部队”。妈妈很寂寞免费观看电视剧西瓜视频她的选择逻辑,或许能为焦虑中的家庭打开新视角。据说,当年在湛江一中的教室里,她总捧着文史书籍沉浸其中。“热爱文哲史”不仅是档案里的评语,更是她日常的写照。文科学习需要敏锐的人文思辨与记忆能力,而她的兴趣天然契合这些特质。这种发自内心的热爱,让高强度学习变成主动探索而非负担。
B站9.1视频
? 钟正全记者 王云飞 摄
20250923 ? B站9.1视频表面上,如微博 CEO 王高飞所言,“互联网上半场是各做各的,下半场你做我的、我做你的,再形成新的平衡”;背地里,淘宝、京东进进出出,小红书开开合合,对电商这摊生意始终缺点悟性。9.1网站NBA入口在线观看谈及完成首秀的埃利奥特-安德森,马杜埃凯表示:“我早就知道他的顶级实力,因为每次对阵诺丁汉森林时他总是表现优异。我预感到他会有这样的发挥,他今天令人惊叹且毫无生涩感。”
B站9.1视频
? 黄明辉记者 史金凤 摄
? 具体来看,诸如四川九寨沟、云南普洱、新疆喀什、西藏昌都等多个城市的订单增幅均超200%,其中九寨沟订单增速尤为显著,同比增长达到750%,“大交通+落地自驾”模式持续受到欢迎,已成为标准旅行范式,“异地还车”服务大幅降低了跨区域自驾的行程束缚。此外,浙江仙居、陕西铜川、内蒙古锡林浩特、山西朔州、湖南新化等非传统热门城市订单增速跻身前十,自驾游客对 “小城漫游”“深度探索”的偏好正在加速形成。女人一旦尝到粗硬的心理
扫一扫在手机打开当前页