麻花传媒91mv在线观看

EN
www.dcsz.com.cn

干爹你真棒插曲快来救救我小说础滨边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

智东西9月4日报道,9月3日,快手开源最新多模态大模型Keye-VL-1.5。该模型拥有80亿个参数,支持128ktokens扩展上下文,在视频理解、图像理解和推理方面能力出色。 在Video-MME、Video-MMMU、TempCompass等一系列权威的公共视频基准测试中,Keye-VL-1.5在同等规模模型中取得了SOTA(最佳表现),赶超阿里Qwen2.5-VL 8B、小米MiMo-VL 7B-RL等同等规模优秀模型;在WeMath、MathVerse等需要复杂逻辑推理和数学问题解决的评估集上,Keye-VL-1.5-8B也展现出较强性能。 据悉,相比于只会识别标签和片段的传统模型,Keye-VL-1.5能捕捉视频中的细节与时间逻辑,实现对长视频与复杂语义的深度理解。这一模型可用于视频推荐、创作、互动以及内容审核和商业化全链条。 这意味着,从自动生成吸睛标题,到智能剪辑精彩片段,再到实时互动解说,Keye-VL-1.5或许能为短视频生态注入了前所未有的可能性。 智东西对这一模型进行一手体验后发现,Keye-VL-1.5在图像理解和逻辑推理上效果较好,且速度较快,10秒左右可完成针对数分钟视频内容的处理。值得一提的是,在近日广受关注的AI生成内容的识别上,Keye-VL-1.5表现出了较高的准确率。 首先,智东西用近日广受关注的AI生成内容识别任务来测试Keye-VL-1.5。随着《人工智能生成合成内容标识办法》,AI生成合成内容的审核管理工作量随之变大。 当智东西上传了一个实拍的熊猫视频,输入提示词:“这个视频是AI生成的吗?”。如下图所示,Keye-VL-1.5采用非思考模型,在几秒见即给出“不是”的正确答案。 我们增加难度,上传一个男士拿着猫罐头的视频,输入提示词:“这个视频是AI生成的吗?有没有广告推销?”如下图所示,这次Keye-VL-1.5自己选择了深度思考模式,经过近10秒钟的思考后,输出了正确答案:“是,该视频可能是AI生成的,并且有广告推销(猫粮)。” 接下来,我们上传了一个荷花池的风景视频,要求Keye-VL-1.5“根据视频创作一首七言绝句”,如下图所示,这对Keye-VL-1.5几乎没有难度,生成诗句:“夏日池塘荷叶绿,粉苞初放映晴天。蜻蜓点水惊飞蝶,清香浮动入诗篇。”诗句全面覆盖了视频中的景物,并且创作了了“蜻蜓点水惊飞蝶”全新意象,还联想到了“清香浮动”嗅觉感受,可见其兼具图像理解和逻辑推理能力,但在语言生成的精妙性方面仍有进步空间。 我们上传了对于两只猫相处的视频,要求Keye-VL-1.5“对这个视频进行剪辑,剪去两只猫停顿部分,保留动态部分,7秒左右”。但Keye-VL-1.5目前无法执行视频剪辑和生成的动作,而是给出了应该删去和保留哪些视频帧。 当我们上传了一个男孩和女孩走在校园跑道上的照片,输入提示词:“视频中出现了几个人?他们可能多大岁数,是什么关系?”,Keye-VL-1.5很快给出准确答案:“2个人,年龄约16-22岁,可能是情侣、好友或同学关系。”可见Keye-VL-1.5在逻辑推理上有一定的能力。 我们上传了一个对于女性宣言合集视频,问Keye-VL-1.5:“视频中出现了几个女孩?她们在谈论什么话题,有什么意义?”这次Keye-VL-1.5误把前两个黑色头发女孩识别为了同一个,且没有识别出音频,所以无法总结出话题主题。从思考过程可知,Keye-VL-1.5差一点成功确认视频中出现了三个女孩,但最终却因误以为第一、二个女孩为同一人,而没有得到正确答案。 根据Keye-VL-1.5自己的官方回复:“目前,我作为基于文本的AI模型,无法直接处理视频中的声音内容。我的能力主要集中在文本分析、图像描述和逻辑推理上。” 看完实测,再来看看Keye-VL-1.5的基准测试情况。通过在公开基准上的评估和内部人工评估,Keye-VL-1.5相较于现有模型表现出显著的改进,尤其在视频理解任务中表现出色,同时在通用视觉-语言任务上也保持了较好性能。 在通用视觉-语言任务上,Keye-VL-1.5在大多数基准测试中展现出具有竞争力的性能,常常取得最先进(SOTA)或接近最先进的结果,总体上优于其他模型。 在以视频为中心的场景中,对视频内容的准确理解是Keye-VL-1.5的核心优势。在公开的视频基准测试中,Keye-VL-1.5显著优于其他模型,尤其是在Video-MMMU上,绝对提升了6.5%。 如下表所示,Keye-VL-1.5-8B以3.53的整体综合得分大幅领先,较Keye-VL-Preview显著提升了0.51。该模型在提供准确且全面的响应方面能力的增强,且响应与用户查询的匹配度有所改善。与MiMoVL-7B-RL-2508对比,Keye-VL-1.5-8B在综合性能上确立了0.13的优势,且在准确性方面表现尤为突出(+0.19)。虽然快手的模型在事实准确性上更胜一筹,但在语言生成的精妙性方面仍面临挑战。 详细的能力分析揭示了特定领域的优势和优化重点:下表中的细粒度评估显示,Keye-VL-1.5-8B在推理能力(3.81)、时间信息理解(3.36)和稳健性(4.29)方面具有显著优势;在视觉元素识别(3.49)和创造能力(3.66)上与MiMoVL-7B-RL-2508相当。 近年来,多模态大语言模型加速发展,然而由于视频具有动态性和信息密集性的特点,视频理解仍然是一个具有挑战性的领域。 现有模型在处理视频内容时,难以在空间分辨率和时间覆盖范围之间取得平衡。现有方法通常在固定分辨率约束下采用均匀帧采样,这在内容理解需要细粒度视觉细节和时间一致性时,会导致性能欠佳。 首先,快手引入了一种新颖的慢-快视频编码策略,该策略基于帧间相似度动态分配计算资源,对具有显著视觉变化的关键帧采用更高分辨率处理(慢速路径),而对相对静态的帧则以更低分辨率增加时间覆盖范围(快速路径)。 从跨模态对齐和多任务学习开始,在退火阶段,我们系统地将模型的上下文长度从8K扩展到128K tokens,使其能够处理更长的视频和更复杂的视觉内容。 这种渐进式方法确保了训练的稳定性,同时最大限度地利用扩展的上下文窗口来增强视频理解能力。最后的模型融合阶段将使用不同数据混合训练的模型结合起来,以提高稳健性并减少偏差。 首先,他们设计了一个五步思维链推理数据构建流程,以生成高质量的冷启动数据;其次,采用GSPO算法进行可验证的基于奖励的强化学习训练。这包括渐进式提示采样,以处理困难样本;最后,进行对齐强化学习训练,以增强指令遵循、响应格式和偏好对齐能力。 快手Keye-VL-1.5模型架构基于Qwen3-8B语言模型,遵循经典的多模态大语言模型架构,包含三个关键组件:视觉Transformer(ViT)、多层感知机(MLP)投影器和语言解码器。 在ViT组件方面,快手采用谷歌开源的SigLIP-400M-384-14作为视觉编码器来提取视觉信息。在大语言模型(LLM)组件方面,他们使用阿里的Qwen3-8B作为语言解码器,以提供通用的世界语义知识理解能力。对于投影器,他们随机初始化其参数,并在第一阶段对其进行充分的预训练。 在模型预训练阶段,快手团队在数据构建流程中,组建了一个多样化、高质量的语料库,包含超过1万亿个标记,用于支持模型训练,其来源既有公共数据集,也有内部专有数据。 训练数据涵盖六大主要类别:图像描述、光学字符识别与视觉问答、目标定位与计数、交错数据、视频理解以及纯文本数据。团队针对每个数据类别的特点设计了定制化的过滤机制,以确保整体数据质量。 为了高效训练多模态大语言模型,快手团队进行了深入的基础设施优化,以解决三大主要挑战:架构异构性、负载不均衡和输入/输出瓶颈。 1、异构混合并行策略:对于计算模式相对固定的ViT组件,仅采用数据并行(DP)以最大化吞吐量;而对于参数和内存消耗极大的LLM,则采用结合流水线并行(PP)、张量并行(TP)和数据并行(DP)的混合并行策略。这种精细化策略是实现Keye-VL-1.5的128K超长序列训练的关键技术前提。 2、动态负载均衡机制:预先估计每个样本的时间复杂度,然后使用贪心算法在不同GPU之间分配样本,从而平衡所有GPU的总步骤时长,提高整体硬件利用率。 3、灵活且可扩展的数据加载器:设计了一种灵活且可扩展的数据加载器,它能深度感知并行训练的拓扑结构;实施了一种I/O服务器架构,将视频解码等CPU密集型任务从训练节点卸载出去,有效解决了复杂媒体处理带来的CPU瓶颈问题;实现了实例级的完美恢复机制,确保任务在中断后能够从最后一个成功处理的样本无缝恢复,显著提高了大规模训练的稳定性和效率。 在本研究中,快手提出的Keye-VL-1.5显著提升了视频理解和视觉-语言任务的性能。该模型高效地平衡了时间覆盖范围和空间分辨率,且能够处理更长的视频和复杂的视觉内容,且提升了指令遵循能力和推理能力。 当AI能够真正理解视频的细节与语义,视频行业的推荐、创作、互动和商业化都将被重塑。Keye-VL-1.5仍处于初步阶段,在音频理解、多模态内容生成、逻辑推理等方面仍存在一些不足。但基于短视频平台的海量数据储备,该模型有望在之后快速迭代。

干爹你真棒插曲快来救救我小说
干爹你真棒插曲快来救救我小说这一转型不光是他个人的事业翻盘,更像是跟着时代走的一次变身,他从央视大舞台退下来,却在短视频平台活得风生水起,舞台不同了但观众依然买账,那个“郭子”没有消失,只是换了地方继续逗大家乐。节目中的其他嘉宾都是男生,看到孙艺珍做这些动作这么轻松,也跃跃欲试,但很快就都败下阵来,说孙仙虽然看起来温温柔柔的,实际上却很有力量感。▼干爹你真棒插曲快来救救我小说《已满十八岁免费观看电视剧十八岁》在周四比利时6-0大胜列支敦士登的比赛中,德布劳内依旧表现出色,并攻入一球,用实际表现证明自己仍是球队不可或缺的核心。中国男篮国手朱俊龙也是来到现场,他今夏帮助中国男篮夺得亚洲杯亚军,而今年5月帮助广厦男篮夺冠后,他被保送进上海交通大学。
20250930 ? 干爹你真棒插曲快来救救我小说一位消息人士在沉重的声明中表达了集体的悲痛:“我们怀着极大的悲伤得知索萨的去世,他是一位以奉献、才华和团队精神著称的运动员。在这个痛苦的时刻,我们向他的家人、朋友以及整个体育界致以最诚挚的哀悼。愿他们能在对他的美好回忆和他的激励遗产中找到安慰。”日剧《轮流抵债》在线观看数码迷以外,申力立还是个投资爱好者,小学没毕业就开始关注股票,大学开始高频率在个人博客发表投资相关文章。多年的投资经历后,申力立对自己有了越来越清晰地认识,不宜做短线,适合长期主义,关注公司的长期价值,而小米正是申力立最看好的公司之一。
干爹你真棒插曲快来救救我小说
? 李建影记者 王立新 摄
20250930 ? 干爹你真棒插曲快来救救我小说如发现可疑情况,可通过12339国家安全机关举报受理电话、网络举报平台(www.12339.gov.cn)、国家安全部微信公众号举报受理渠道或直接向当地国家安全机关进行举报。日本MV与欧美MV的区别仲裁小组写道:“我们所见到的数据严重削弱了英足总关于球员动机的指控——即他出于错误想法给家人朋友谋利。考虑到他的慷慨、收入水平以及对投注的不感兴趣,这一说法难以成立。”
干爹你真棒插曲快来救救我小说
? 娄建刚记者 马国良 摄
? 罗德里格斯:“过去的事情就让它过去吧。我现在对自己的处境感到满意。我一直都说我很想回去,因为在那里首次亮相并长期效力是我的梦想。但事实并非如此。我不愿意说,但我的确有这个打算,回到俱乐部,回报他们在欧协联决赛中给予我们的支持。我希望将来能在那个给了我一切的俱乐部踢球,并为他们赢得一座欧洲奖杯,这是他们应得的。”《女性私密紧致情趣玩具》
扫一扫在手机打开当前页