麻花传媒91mv在线观看

EN
www.dcsz.com.cn

免费网站在线观看大全电视剧骋笔罢-5训练背后隐藏大佬:靠一篇博客入职翱辫别苍础滨

智东西6月16日消息,今天,AI云服务商Hyperbolic的联合创始人兼CTO Yuchen Jin在社交平台X上曝料:研究员Keller Jordan仅凭一篇博客文章就加入了OpenAI,并可能正用博客提及的神经网络隐藏层的优化器Muon训练GPT-5。 “许多博士(包括以前的我)都陷入了这样一个误区:认为在顶级会议上发表论文才是最终目标。但发表论文≠影响力。Muon只作为一篇博客文章发布,它让Keller加入了OpenAI,他现在可能正在用它训练GPT-5。”Yuchen Jin说。 从职场社交平台领英可知,Keller Jordan正是在2024年12月加入OpenAI,由此我们也可以推测他正是凭去年12月发布的一篇博客,成功进入了如日中天的头部大模型公司。 Keller Jordan的博客文章主要关注Muon的设计。首先他定义了Muon并概述其在当时已取得的实证结果;然后他详细讨论了Muon的设计,包括与先前研究的联系以及对其工作原理的最佳理解;最后他讨论了优化研究中的证据标准。 使用Muon训练神经网络时,应使用AdamW等标准方法优化网络的标量和矢量参数以及输入层和输出层。Muon可用于四维卷积参数,方法是将其最后三个维度展平。 Muon通过采用SGD-momentum生成的更新来优化二维神经网络参数,然后在将它们应用于参数之前,对每个更新应用 Newton-Schulz (牛顿-舒尔茨迭代法,简称NS)迭代作为后处理步骤。 为什么正交化更新可行?出于实证研究的动机,作者基于人工检验观察到,SGD-momentum和Adam对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数。也就是说,它们几乎是低秩矩阵,所有神经元的更新仅由少数几个方向主导。 一个是SVD方法,它太慢了,所以作者没有使用它。另一个是Coupled Newton iteration (耦合牛顿迭代法),它必须至少以float32精度运行才能避免数值不稳定,这导致它在现代GPU上运行速度较慢,所以作者也没有采用。 根据设计,Muon仅适用于二维参数,以及通过展平的卷积滤波器,因此网络中其余的标量和矢量参数必须使用标准方法(例如 AdamW)进行优化。 根据经验,Keller Jordan发现使用AdamW优化输入和输出参数也很重要,即使这些参数通常是二维的。具体来说,在训练Transformer时,应该将AdamW用于嵌入层和最终分类器头层,以获得最佳性能。嵌入层的优化动态应该与其他层不同,这遵循模块化范数理论。输出层的这种动态也不同,这似乎并非来自理论,而是由经验驱动的。 另一个纯经验性的结果是,在他们测试的所有案例中,使用 Nesterov式动量对Muon的效果都比普通的SGD动量略好。因此,他们在公开的Muon实现中将其设为默认设置。 第三个结果是,如果将Muon分别应用于变压器的Q、K、V参数,而不是一起应用于变压器,则Muon可以更好地优化变压器,因为对于将QKV参数化为输出被分割的单个线性层的变压器实现,默认做法是将它们一起应用。 Keller Jordan认为,神经网络优化研究文献目前大多充斥着一堆已死的优化器,它们声称能够击败AdamW,而且往往以巨大的优势获胜,但却从未被社区采用。鉴于业界在神经网络训练上投入了数十亿美元,并渴望降低成本,他们可以推断,问题出在研究界,而非潜在的采用者。 Keller Jordan犀利地提出:这项研究出了问题。仔细研究每篇论文后,他们发现最常见的罪魁祸首是糟糕的基线:论文在将其与新提出的优化器进行比较之前,往往没有充分调整AdamW基线。 发表声称有巨大改进但无法复制/达到宣传效果的新方法,浪费了大量个人研究人员和小型实验室的时间、金钱和士气,他们每天都在为复制和构建此类方法的失败而感到失望。 为了纠正这种情况,Keller Jordan建议采用以下证据标准:研究界应该要求,只要有可能,神经网络训练的新方法就应该在竞争性训练任务中取得成功。 竞争性任务通过两种方式解决了基线欠调问题。首先,竞争性任务的基线是先前的记录,如果该任务很受欢迎,则很可能已经经过了良好的调整。其次,即使在先前记录未经过良好调整的不太可能发生的情况下,也可以通过新的记录进行自我修正,将训练恢复到标准方法。 通过定义、拆解设计及实证研究,Keller Jordan发现了Muon神经网络隐藏层的优化器具备优于AdamW的效率。通过最新曝料可知,这一技术很有可能成为OpenAI正在研究的GPT-5的重要部分。 Keller Jordan也提出了一些尚未解决的问题。包括:Muon可以扩展到更大规模的训练吗?是否有可能在大型GPU集群中正确分布Muon使用的Newton-Schulz迭代?Muon是否仅适用于预训练,而不适用于微调或强化学习工作负载?或许在GPT-5的研究中,作者已经知道了这些问题的答案。

免费网站在线观看大全电视剧
免费网站在线观看大全电视剧我身边有不少发过SCI也合作过多家科研机构的作者,综合对比下来,良禾文化作为一家学术支持机构,能够为科研人提供既全面又高质量的服务,还是很不错的胡荷韬:这次的名单是全新的,很多都是第一次在一起训练,可能磨合是有一定的问题,但是其实第一场比赛都是不好踢的,都是比较困难的。免费网站在线观看大全电视剧《满18岁免费观看高清电视剧》赚钱本身无可厚非,可在加密世界里,代码公开、流动性高、退出容易,“赚钱”常被推到零和边界:团队赚得越多,后来接盘者风险越大。“党和政府很关心关怀我们,在政府的关心下,母亲把我和哥哥养大。”何正全介绍,父亲牺牲后,母亲拉扯着他和哥哥长大,政府每月发放抚恤金,直到兄弟俩成年。
20250926 ? 免费网站在线观看大全电视剧闭馆公告发布后,这个被迫关停的场馆竟然意外迎来“告别式参观热潮”。9月6日下午,《华夏时报》记者实地探访时发现,在半小时的观察中,就有91名游客陆续走出展厅,相当于半小时就有平日一天的客流量。有游客告诉记者,完整参观需耗时约一个半小时。男朋友隔着内裤蹭蹭会得妇科病吗尼泊尔总理奥利在社交媒体发文称赞此次纪念活动为一场“非凡的盛会”。他说,“这是一次真正具有历史意义的全球友谊与纪念盛会”。
免费网站在线观看大全电视剧
? 栗学锋记者 杨振 摄
20250926 ? 免费网站在线观看大全电视剧这一切变局,或只是刚开始,老牌豪车的挣扎和新势力的抢跑,注定让车市变得更热闹,谁能真正熬过转型期,现在还没人敢下结论。《17c.com.gov.cn》理解德容改变策略的原因是很重要的。通常情况下,当一名球员聘请经纪人时,往往是为了可能的转会做准备,利用经纪人的关系网来促成交易,经纪人从中获取佣金。然而,如果球员打算留在球队,像德容这样,那么聘请专门从事体育法律事务的律师会更加实际。这些律师能够处理所有相关的法律文件,而不需要像阿里-杜尔森(他的前任经纪人)那样的商业中介服务。
免费网站在线观看大全电视剧
? 黎树中记者 赵学堂 摄
? 那么这是一部分,交易中心在办理过程中是否存在着疏漏?而且如果这种疏漏造成了损失的话,他们需要承担多少责任?同样是一个法律的焦点。东北农村搞破鞋视频大全
扫一扫在手机打开当前页