麻花传媒91mv在线观看

EN
www.dcsz.com.cn

9.1网站NBA入口在线观看础滨打假础滨,拿下厂翱罢础丨厦大&腾讯优图

厦门大学联合腾讯优图实验室团队,就提出了这样一项研究,创新性提出“大模型+视觉专家”协同架构,让大模型学会用检测器看图像、并描述出检测到的问题。 实验结果显示,基准测试方面,相比现有方法,团队的AIGI-Holmes在所有基准(benchamrk)上,均取得了最优效果。解释能力评估方面,团队在客观指标(BLEU/ROUGE/METEOR/CIDEr)以及大模型/人类主观评分上,相比当前先进大模型,均取得了最优效果。 可解释性不足:当前检测模型多为“黑箱”模型(如图a1所示),只能输出图片是“真实”或“虚假”,而无法解释一张图片为什么是生成图像,模型检测结果无法验证,难以提供可信赖的检测结果。泛化能力有限:快速迭代的AIGC技术持续挑战现有检测方法的泛化能力。在旧模型上训练的检测器通常难以应对新的AIGC方法;有些人类一眼能够看出的生成图片,模型反而难以检测出来。 将多模态大语言模型(MLLM)应用在AIGC检测上可以有效帮助缓解上述问题,但也存在以下问题: 为了解决数据稀缺问题,团队构建了Holmes-Set数据集,包含45K图像和20K标注。团队考虑了多种类型的生成缺陷,如人脸特征异常、人体解剖学异常、投影几何错误、物理法则错误、常识性矛盾、文本渲染异常、纹理异常等等,覆盖了AI生成图像在low-level artifacts和high-level semantic中的常见伪影类型。 自动标注:团队设计了一个多专家评审系统(Multi-Expert Jury),通过四个先进的多模态大模型(MLLMs)进行视觉缺标注,这四个模型分别是Qwen2VL-72B、InternVL2-76B、InternVL2.5-78B、Pixtral-124B。团队设计了三种不同的prompt,用于标注,包括: a.通用正向提示:通用正向提示中,团队通过prompt让MLLM从包括线条、纹理、阴影、文本、人体等13种角度,借助其强大的通识能力去分析图像中可能存在的生成伪影。b.通用负向提示:MLLMs存在幻觉和后验合理化(post-hoc rationalization)问题,团队利用了MLLMs的这个问题,设计了通用负向提示。在通用负向提示中,反转了通用正向提示中所有图像的真/假标签,从而让模型去强行解释一张真实的图片为什么是假的,以及一张生成的图片为什么是真的,用作后续直接偏好优化(DPO)的负样本,从而抑制幻觉问题。c.特定缺陷提示:为了进一步提升模型在各种视觉缺陷方面的理解能力,团队设计了特定缺陷提示,用于标注特定缺陷类型的图像。专家提示中,团队通过prompt让MLLMs从特定缺陷的角度去解释一张图像,如图所示: 偏好修正数据:团队基于SFT阶段模型的输出,通过人工标注进行偏好修正。具体来说,让标注同学根据图像和初版模型输出的解释,提供解释的修改建议,比如解释中存在哪些错解释/漏解释的问题。结合原始解释及人工提供的修改建议,团队使用Deepseek对解释进行了修改,并将修改前/后的解释作为一对数据,用于后续的DPO训练。 Holmes Pipeline是为AIGI-Holmes系统设计的完整训练流程,旨在通过分阶段优化策略将多模态大语言模型转化为专业的AI生成图像检测与解释系统。 视觉专家预训练阶段:该阶段的核心目标是使MLLM的视觉编码器具备基础的AI生成图像检测能力。为此选择了两个视觉专家,分别是CLIP-ViT-L/14和NPR ResNet。其中CLIP用于检测high-level semantic缺陷,而NPR则用于检测low-level artfacts,分别在Holmes-set上进行LoRA微调和全参微调。通过二元交叉熵损失函数,模型能够迅速学习到真实图像与生成图像之间的差异,为后续的SFT和DPO阶段提供基础的视觉能力。 监督微调(SFT)阶段:保持视觉专家参数冻结,仅训练线性投影层和语言模型的LoRA适配层。通过使用自回归文本损失函数,引导模型学习生成与图像真实性相关的视觉缺陷解释。这一阶段的训练数据包含大量经过自动标注的图像描述和视觉缺陷解释,使模型能够建立视觉特征与语义解释之间的关联。模型在此阶段学习如何将视觉专家的检测结果转化为人类可理解的文本描述。 直接偏好优化(DPO)阶段:团队从构建的偏好数据集中采样优质和劣质解释对,采用DPO损失函数进行优化。在此过程中,团队保持视觉专家参数不变,微调线性层,并使用LoRA微调语言模型。通过偏好样本对之间的对比,模型能够区分高质量的专业解释和低质量的机械式回答,从而显著提升输出的可读性和准确性。 推理阶段:在推理阶段,团队采用了协同解码策略,将多模态大语言模型(MLLM)与预训练的视觉专家相结合来共同判断图像真实性。具体而言,通过调整模型输出中”fake”和”real”对应token的logit值,整合了原始MLLM预测、CLIP视觉专家预测和NPR视觉专家预测三方面的结果,其中权重分配分别为1:1:0.2。这种协同机制既保留了MLLM的多模态理解能力,又通过视觉专家的低层级特征分析弥补了MLLM可能存在的过拟合问题,从而提升了模型在未知领域的检测准确率。 具体来说,团队在三个AIGI检测的数据集上评估了检测能力,包括AIGCDetect-Benchmark、AntiFakePrompt,并且额外采集了10种SOTA生成模型的图片构建了第三个benchmark,用于测试模型在未见过的生成方法上的泛化能力。 在解释能力评估上,通过BLEU、CIDEr、METEOR和ROUGE等自然语言处理指标量化解释文本的质量。此外,还引入多模态大模型评分和人工偏好评估两种补充评估方式:前者参考相关研究设计评分标准,考察解释的相关性、准确性等维度;后者通过100张测试图像的成对比较,采用ELO评分机制评估模型解释的人类偏好程度。 在现实场景中,AI生成的图像在传播过程中常遇到不可预测的扰动,这可能导致现有AI检测器失效。团队应用了几种现实场景中常见的扰动:JPEG压缩、高斯模糊和下采样。 如表5(下图左侧)所示,在这些失真下,所有方法的性能显著下降。然而,AIGI-Holmes在这些挑战性场景中与其他基线方法相比,实现了更高的检测精度。 此外,如图5(下图右侧)所示,在这些退化条件下,模型解释的评价指标(如BLEU-1、ROUGE-L、METEOR和CIDEr)没有表现出显著下降。这表明模型生成的解释仍然专注于与图像内容相关的高级语义信息,并且不受这些退化条件的影响。

9.1网站NBA入口在线观看
9.1网站NBA入口在线观看据此前报道,成都站的活动被安排成都万象城Nike店(成华区双庆路8号),预计在9月5日中午过后进行。詹姆斯会出现在万象城,与球迷们互动。日前,迈阿密国际在北美联杯决赛中以0-3不敌西雅图海湾人。比赛结束后,双方发生冲突,苏亚雷斯朝西雅图海湾人一名工作人员吐了口水。9.1网站NBA入口在线观看女人尝试到更粗大的心理变化今天下午华为举行了今年的华为 Mate XTs 非凡大师及全场景发布会,原本托尼是想着看看这个新的三折叠 XTs 还能怎么有面的,结果我发现华子这回发的这一堆新品里,三折叠居然不是最有看头的 ——OpenAI是少数几家估值极高、定期为员工提供股票套现机会的科技初创公司之一,以此缓解上市压力。华尔街见闻此前文章称,这笔交易被认为是为上市做铺垫的一部分。同时,5000亿美元的估值将让OpenAI超越美国历史上大多数科技IPO的市值,跻身最有价值的上市科技公司行列。
20251010 ? 9.1网站NBA入口在线观看报道称,在周五法国队对阵乌克兰的比赛中,杜埃和登贝莱受伤之前,巴黎圣日耳曼已向法国足协发去一封信,表达了对球员身体状态的担忧,并要求修改法国队医疗组现有的操作流程。黄金网站9.1网站直接进入詹姆斯今年是时隔6年开启中国行活动,也是他生涯第15次中国行活动。詹姆斯在上海站备受追捧,他先后去上海交通大学与外滩等进行活动,获得中国球迷的喜欢,也是展现出NBA超级巨星的魅力。
9.1网站NBA入口在线观看
? 刘春霞记者 刘南文 摄
20251010 ? 9.1网站NBA入口在线观看此外,重庆大学还带来了“钛基合金固体储氢”和“大容量长循环软包水系锌锰二次电池组”等储能技术,为解决能源存储难题提供多重解决方案。欧美大片ppt免费大全我能做一些受伤时做不了的事情,能和我的亲人、我的家人分享更多的时间。而且,因为我总是努力从事情中寻找积极的一面,我认为这次受伤,将会延长我的职业生涯,因为不管你愿不愿意,我让我的双腿和我的身体休息了一年……很明显没人想要这样的伤病,但积极的一面就是这个。这也是为了让我的头脑清醒一下,是的,是的。
9.1网站NBA入口在线观看
? 于军奇记者 李强 摄
? IT之家从官图中发现,新车车身类似轿车,但车侧较高,底盘离地间隙相比传统轿车也有所增加。其车头大灯采用了标志性的“雷神之锤”T 形设计,位于竖直排列的行车灯上方,下方是简洁的进气格栅。尾灯呈 C 形,类似于 SUV 的设计,后车厢的倾斜玻璃上方还增加了 LED 灯。《9.1网站NBA入口在线观看》
扫一扫在手机打开当前页