麻花传媒91mv在线观看

EN
www.dcsz.com.cn

扒开阴脣晒太阳有用吗冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。现在,我们或许有了解决方案。 GRPO 基于近端策略优化(PPO)算法,但进行了简化,即不再需要使用价值模型来估计基线优势。具体操作是对每个问题采样多个响应,并使用它们的平均奖励作为基线,而其优化的目标仍然是与 PPO 类似的裁剪替代目标(clipped surrogate objective)。 需要注意的是,尽管这里展示了标准的 GRPO 损失归一化公式,但包括 verl 和 TRL 在内的多个开源强化学习库都默认为 GRPO 使用了 DAPO token 级损失归一化 ,这也是该微软团队在实验中使用的方法。 GRPO 的一个关键限制在于它依赖于单一的标量奖励信号,这使得它难以联合优化多个期望得到的响应属性,例如简洁性和准确度。结果就是,GRPO 确实能提高准确度,但也会让响应长度大幅增加。 GFPO 会为每个问题采样更大的候选响应组,从而扩大响应池以包含更多具有所需特性的候选响应,然后在计算策略梯度时显式地过滤这些特性。虽然将简洁性或信息量等所需属性直接编码到标量奖励中是看似自然的做法,但同时编码多个特性却可能很难,尤其是在必须保证正确性的情况下。 数据过滤则是一种隐式、灵活的奖励塑造形式 —— 类似于使用选择性采样来放大特定模型行为的迭代式自我改进方法 。在此显式过滤步骤分离出所需的响应后,将在所选组内使用标准奖励来计算相对优势。因此,GFPO 无需复杂的奖励工程,即可同时优化多个所需属性(例如长度和准确度)。 由于这里的目标是减少强化学习中响应长度的膨胀,因此该团队主要研究的是在保持与 GRPO 相当的准确度的用时,使用 GFPO 来优化缩短响应长度。 给定一个问题 q,从当前策略采样大量响应 G = {o_1, ..., o_G}。GFPO 并不会在所有响应上平等地训练,而是会根据用户指定的指标应用选择步骤,过滤出大小为 k 的最符合期望的响应子集,然后进行训练。之后,为每个响应计算一个指标得分并进行相应排序,从中选出前 k 个响应,形成留存子集 S ? G(算法 1)。这里,该团队定义了一个二元掩码 m ∈ {0, 1}^G,其中 m_i = 1 表示被选中响应,m_i = 0 表示被拒绝响应。 这里使用 S 中响应层面的奖励的平均值 (μ_S) 和标准差 (σ_S) 对所选子集 S 中响应的优势进行归一化。这样一来,便可以有意义地比较已表现出所需属性的响应,从而确保 GFPO 优先考虑过滤子集中奖励最高的响应。不在 S 中的响应的优势为零,从而可有效地被排除在策略更新之外。 虽然通过采样更多响应,GFPO 会导致更高的训练时间计算成本,但由于学习到的策略比 GRPO 能产生更短的响应,因此这部分成本可以被抵消。 响应长度:使用短响应进行训练能直接鼓励实现简洁性。token 效率(奖励/长度):使用高 token 效率的响应进行训练可鼓励简洁性,但如果较长响应能「证明」其正当性,则仍可允许较长响应。 为了自适应地调整留存响应的数量 (k),该团队使用了一个轻量级 t-digest 数据结构维护提示词难度的流式摘要。t-digest 可以有效地近似迄今为止所有提示词难度(奖励均值)的四分位数,从而能够将新问题分类到相对难度的桶(bucket)中。 基于此分类,该团队为每个问题分配一个留存响应数量目标 k:简单 4 个,中等 6 个,困难和非常困难的问题 8 个(从 16 个样本中选取)。这种动态课程可以对简单提示词进行更积极的过滤,并对困难提示词进行更多探索。难度桶的数量和每个桶的 k 是此方法的超参数。 自适应难度 GFPO 可高效利用训练计算,将梯度更新集中在最需要的地方。它能帮助模型减少简单示例(正确率已经很高)的冗长程度,同时通过保留更多推理链来保持更难提示词的准确度。 Shortest k/G:留存 G 中的 k 个最短响应,同时改变 k 和分组规模 G,以研究它们对长度缩减的影响。token 效率:留存 G 中 k 个每 token 奖励效率最高的响应,使用 k = 8,G = 16(与基准 Shortest k/G 设置一致)。自适应难度:留存 G 中 k 个最短的响应,k 根据实时难度估算动态选择(4、6、8,8 表示简单→非常难),G = 16。 发现 2:留存响应的百分比 (k/G) 可控制长度压力:降低 k 或提高 G 会进一步缩短长度;该团队观察到保留 25-33% 的响应是最佳的,保留比例越小,增益越小。最短 4/24 是最佳长度优化的 GFPO 变体,可最大程度地减少过长响应。 发现 3:token 效率(奖励 / 长度)优化带来了最大幅度的缩减:在保持准确度的同时,额外长度减少了 70.9% (AIME 25)、84.6% (AIME 24)、79.7% (GPQA)、82.6% (OmniMATH) 和 79.7% (LiveCodeBench)。这些缩减在训练过程中会略微增加方差。 发现 4:自适应难度 GFPO 在同等计算量下优于 Shortest-k 算法:根据问题难度自适应地确定 k 值,在 4/5 基准测试中,与同等计算量下的 Shortest-k 算法相比,其长度缩减效果更佳。 发现 5:GFPO 可缓解分布外(OOD)长度膨胀:GRPO 会增加分布外任务的响应长度,但准确度并未提高;而 GFPO 则在略微提高准确度的同时,抑制了这种膨胀。 GFPO 在所有难度级别上都会缩短响应。token 效率 GFPO 在简单、中等和困难问题上实现了最大程度的缩减 —— 在简单问题上,其响应甚至比 SFT 模型更短,同时准确度与 GRPO 相当。Shortest 8/24 GFPO 由于其强大的过滤功能,在最难问题上实现了最大程度的缩减。 自适应难度 GFPO 在中等难度和极难问题上的准确度超越 GRPO,同时将过长问题缩短了 47%-60%。更大的分组规模提高了难题的准确度:自适应难度(k = 8,G = 16)在难题上略有下降,但 Shortest 8/24 算法可通过更多采样找到简洁的正确响应,从而与 GRPO 的准确度相当。 发现 10:GFPO 可减少极端冗长:将 ≥ 20k 个 token 的响应比例从 32% 降至 22%,同时能以较短的长度解决更难的问题(在 GFPO 中,用 ≤ 5k 个 token 回答的问题比 GRPO 的难度高 9 倍)。 token 效率:长度缩减效果最强,准确度略有下降难度自适应:在最难问题上,通过稳健的长度缩减获得了最佳准确度Shortest 8/24:在管理准确度与长度的权衡方面非常有效

扒开阴脣晒太阳有用吗
扒开阴脣晒太阳有用吗Mona M03是小鹏的关键解药,从低价车型推出后,小鹏的销量得到了持续改善,处于波动中增长。P7是小鹏的又一大提振,新款P7的市场反响较为火热,以至于何小鹏更加有信心。8月,何小鹏通过旗下公司再度增持小鹏汽车310万股,对于销量他直接喊出,“目标是9月起公司月交付量将会稳健地超过4万。”“我一直很欣赏格列兹曼、法尔考、迭戈-科斯塔。虽然他们的风格与我不太相同,我时常看他们在马竞的比赛。还有梅西——他是历史最佳球员。”扒开阴脣晒太阳有用吗《苏软软汆肉的日常花卷视频》Aschenbrenner2001年出生于德国,他从小就展现出卓越的科研天赋,15岁便在德国顶级青年科研竞赛中获奖。高中尚未毕业,他便申请进入美国顶尖学府深造,进入哥伦比亚大学后,他以惊人的速度完成学业,并在19岁那年(2021年)以全院第一名成绩毕业。●美国加征关税预期致美7月贸易逆差显著扩大美国商务部4日发布的初步数据显示,由于进口明显增加,美国7月份贸易逆差扩大至783亿美元,不仅较调整后的6月份贸易逆差591亿美元大幅增加,也高于市场预期。
20251002 ? 扒开阴脣晒太阳有用吗在对阵爱沙尼亚的比赛前,意大利队将为传奇时装设计师乔治-阿玛尼默哀,他今天去世,享年91岁。阿玛尼曾为意大利国家队设计过许多正式服装,并赞助了一支篮球队。高三妈妈用性缓解孩子压力测试结果令人印象深刻。在25个不同的基准测试中,jina-code-embeddings模型展现出了稳定而优异的性能。0.5B参数版本的平均得分达到了78.41%,而1.5B参数版本的平均得分为79.04%。这个成绩不仅超越了同等规模的通用嵌入模型Qwen3-Embedding-0.6B(73.49%),还超过了体积更大的jina-embeddings-v4模型(74.11%)和gemini-embedding-001模型(77.38%)。
扒开阴脣晒太阳有用吗
? 王贤国记者 锁剑雄 摄
20251002 ? 扒开阴脣晒太阳有用吗对人形机器人企业而言,大额合同背后是产能与交付能力的考验,是将好技术转化为好商品的必由之路。企业级客户拿出真金白银,就需要看到真才实学的场景落地。这是一把双刃剑:运用得当,将加速企业运营的正向循环,实现强者愈强;若经不住考验,则难免在大浪淘沙中被淘汰。姐姐让我戴上避孕套歌曲原唱我学到了很多。而且这一年对我的俱乐部来说也是困难的一年。我从一个更高的视角看待事物,学到了一些东西。我也学到了你身边的人有多么重要。但最重要的是,当你稍微抽离出来,从另一个角度看问题时,事情会变得不同。我成熟了很多。
扒开阴脣晒太阳有用吗
? 张渐发记者 游茂峰 摄
? 如今快手旗下的回森音乐则以AI切入市场,用AI美音、音色测试、K歌录制等特色功能打造了多样化的录音工具与音效套件,让普通人也能轻松唱出“专业级”音质。在内容消费场景,将K歌与弹幕融合,推出备受欢迎的“弹幕合唱”玩法;而在实时语音歌房中,则集成了20余种互动玩法,让用户在欢唱的同时收获沉浸式社交体验。香蕉水蜜桃丝瓜18岁可以吃吗有毒吗
扫一扫在手机打开当前页