麻花传媒91mv在线观看

EN
www.dcsz.com.cn

妹妹在线播放免费观看电视剧Test Time Scaling Law远未达到上限!华为诺亚代码HLCE终极基准

本文的第一作者为华为诺亚研究员李向阳,毕业于北京大学,开源组织 BigCode 项目组成员。此前他们团队曾经推出 CoIR 代码检索基准,目前已经成为代码检索领域的标杆 benchmark。其余主要成员也大部分来自 CoIR 项目组。 大语言模型(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经接近 “毕业”,但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力? 来自华为诺亚方舟实验室的一项最新研究给出了一个颇具挑战性的答案。他们推出了一个全新的编程基准 ——“人类最后的编程考试” (Humanity's Last Code Exam, HLCE)。 该基准包含了过去 15 年(2010-2024)间,全球难度最高的两项编程竞赛:国际信息学奥林匹克竞赛(IOI)和国际大学生程序设计竞赛世界总决赛(ICPC World Finals)中最顶尖的 235 道题目。 结果如何?即便是当前最先进的推理模型,如 OpenAI 的 o4-mini (high) 和 谷歌的 Gemini-2.5 Pro,在 HLCE 上的单次尝试成功率(pass@1)也分别只有15.85% 和 11.4%,与它们在其他基准上动辄超过 70% 的表现形成鲜明对比。 这表明,面对真正考验顶尖人类智慧的编程难题,现有的大模型还有很长的路要走。 近年来,LLM 在代码生成领域取得了惊人的进步,许多主流基准(如 LiveCodeBench、APPS 等)已经无法对最前沿的模型构成真正的挑战。研究者指出,现有基准存在几个关键问题: 2.缺乏交互式评测:大多数基准采用标准的输入 / 输出(I/O)模式,而忽略了在真实竞赛中常见的 “交互式” 题目。这类题目要求程序与评测系统进行动态交互,对模型的实时逻辑能力要求更高。 3.测试时扩展规律(Test-time Scaling Laws)未被充分探索:模型在推理时花费更多计算资源能否持续提升性能?这个问题在复杂编程任务上尚无定论。 为构建高质量基准,研究团队对 HLCE 题目进行了深度处理。例如 ICPC World Finals 题目原始材料均为 PDF 格式,团队通过人工逐题提取、转写为 Markdown 并校验,确保题目完整性。最终形成的 HLCE 基准包含:1)235 道 IOI/ICPC World Finals 历史难题;2)标准 I/O 与交互式双题型;3)全可复现的评测体系。 IOI 交互式题目是 “硬骨头”:所有模型在 IOI 题目上的表现都远差于 ICPC world finals 题目。例如,o4-mini (high) 在 ICPC 上的 pass@1 为 25.21%,但在 IOI 上骤降至 6.48%。研究者认为,这与当前模型的训练数据和强化学习方式主要基于标准 I/O 模式有关,对于交互式问题准备不足。 奇特的模型退化现象:一个例外是 claude-3.7-thinking 模型,尽管是推理模型,但其表现甚至不如一些非推理模型,在 IOI 题目上通过率为 0%。研究者推测,这可能是因为 claude 针对通用软件工程任务进行了优化,而非高难度的算法竞赛。 除了代码生成,研究者还设计了一个新颖的 “自我认知”(self-recognition)任务:让模型判断自身生成的代码是否正确,以评估其能力边界感知力。 这种 “苏格拉底悖论”—— 卓越的问题解决能力与清晰的自我认知能力未能同步发展 —— 暗示在现有 LLM 架构中,推理能力与元认知能力(metacognition)可能遵循不同的进化路径。 一个关键问题是:目前 LLM 的推理能力已经非常强了,目前这种范式达到极限了吗?未来的模型的推理能力还能继续发展吗? 而面对如此高难度的 HLCE benchmark,这显然是一个绝佳的机会来研究大语言模型的Test Time Scaling Law。 研究者将模型生成的每组回答按照 thinking token 的数量按照长短进行分组,然后重新测试性能。从图中可以看出,随着思考长度的不断延长,模型的性能在不断的提升,并且远远没有达到上限。 基于上述发现,研究者将模型的最佳表现(基于 5 次尝试,IOI 取 5 次的最大分数,ICPC world Finals 取 5 次解决掉的最多题目)与历年 IOI 和 ICPC 世界总决赛的奖牌分数线进行了直接对比。 这也解释了一个看似矛盾的现象:尽管模型单次成功率很低,但只要给予足够多的尝试机会(这正是 “测试时扩展规律” 的体现),它们就能找到正确的解法,从而在竞赛中获得高分。 这项研究通过 HLCE 这一极具挑战性的基准,清晰地揭示了当前 LLM 在高级编程和推理能力上的优势与短板。 它证明了,虽然 LLM 在单次尝试的稳定性上仍有欠缺,但其内部已蕴含解决超复杂问题的知识。更重要的是,测试时扩展规律在这一极限难度下依然有效,为我们指明了一条清晰的性能提升路径:通过更优的搜索策略和更多的计算投入,可以持续挖掘模型的潜力。

妹妹在线播放免费观看电视剧
妹妹在线播放免费观看电视剧9月1日,湖南省启动以“安居芙蓉·畅购好房”为主题的金九银十惠民置业活动。包括长沙在内,省内14个市州全部参与,并推出多项购房优惠,旨在“真正把实惠送到购房者手中,切实减轻购房负担,让更多群众实现安居梦”。时代周报记者梳理发现,在脉脉或Boos直聘上放出的高薪AI实习岗,应聘条件要求更高。前述MiniMax月薪7万元实习岗,虽然岗位经验要求不限,但需要在国际顶尖期刊发表过高质量论文。还有其他公司部分月薪3万~5万元的实习岗,同样要求在顶级期刊发表论文,或是要求博士或博士在读、各类学科竞赛中获奖、具备机器学习等实践经验。妹妹在线播放免费观看电视剧9·1免费观看完整版高清项立刚补充说,Anthropic并不具备压倒对手的能力,只是故意制造舆论,这不会有任何实质性效果;而无论产业还是技术,中国企业都主张开放合作、相互支撑、相互学习,这形成了鲜明对比。华为最新三折叠手机搭载麒麟9020芯片,这也是麒麟芯片时隔4年重现华为发布会。由此,新款三折叠手机软硬芯云协同,系统级深度优化,性能再突破,整机性能提升36%。
20251010 ? 妹妹在线播放免费观看电视剧本次研讨会由北大中文系、北大语文教育研究所、中国现代文学研究会、人民教育出版社、北大中文系现代思想与文学研究平台、首师大文学院、《南方文坛》杂志社共同主办。9.1短视直接观看Mona M03是小鹏的关键解药,从低价车型推出后,小鹏的销量得到了持续改善,处于波动中增长。P7是小鹏的又一大提振,新款P7的市场反响较为火热,以至于何小鹏更加有信心。8月,何小鹏通过旗下公司再度增持小鹏汽车310万股,对于销量他直接喊出,“目标是9月起公司月交付量将会稳健地超过4万。”
妹妹在线播放免费观看电视剧
? 孙兰田记者 毋关军 摄
20251010 ? 妹妹在线播放免费观看电视剧“随着9月30日政府拨款截止日期临近,很明显,无论是特朗普总统还是国会共和党人,都没有任何计划来避免痛苦且完全不必要的政府关门。”舒默说。《5566.gov.cn》辽宁、京津冀、山东、山西、陕西、河南北部、湖北南部、湖南北部、江苏南部、广西南部、广东西南部、海南等地以多云天气为主,彩云伴月,将给红月亮增添一份神秘色彩。
妹妹在线播放免费观看电视剧
? 李璟记者 耿士凡 摄
? 8月31日下午5点,胡心瑶收到一封来自前男友肖先生的遗书和5万元转账,此时肖先生已因急性重症胰腺炎,在华西医院抢救无效离世,年仅26岁。《9·1看短视频》
扫一扫在手机打开当前页