金融问题的复杂性:涉及法规、风险和实时数据,AI系统必须具备快速学习和适应的能力。通用大模型虽然会推理,但对专业术语、监管细节常常“一脸懵”。可信度和可解释性:金融决策关乎重大利益,出错代价高。每一个推理步骤都必须透明可审计,确保决策过程的可信度和可解释性。金融大模型评测集:业界缺少围绕真实金融业务场景,验证复杂任务推理、智能体应用等关键能力的金融大模型评测集。 从效果上来看,首先,Agentar-Fin-R1在所有金融评测基准上——包括Fineva、FinEval、FinanceIQ和蚂蚁数科全新提出的Finova——均达到业界最优水平,超越业界开源金融大模型,也包括GPT-o1、DeepSeek-R1等超大尺寸通用推理模型。 更专业全面的金融数据标签体系,让模型“出厂即专家”;更高效的加权训练算法,大幅降低大模型应用门槛;模型能力结合真实业务场景自主进化 针对金融任务纷繁复杂的实际情况,蚂蚁数科团队构建了精细化的金融任务分类体系,覆盖银行、证券、保险、基金、信托等全场景。并将复杂的金融领域任务分解为精准定义的类别,比如“意图识别”、“风险评估”、“合规检查”等等。 基于千亿级金融专业数据语料,再经过专门设计的可信数据合成和CoT数据精标,构建了迄今已知最专业最全面的金融领域训练数据集。 首先,是源头可信。背靠蚂蚁在金融领域的长期积累以及真实数据,构建专业全面的金融领域训练数据集,并供下游进行可信的数据合成。 其次,是合成可信。引入可验证的双轨多智能体协作数据合成框架,也就是让多个AI智能体相互讨论相互审核,来保证合成数据质量。 第一阶段,先进行知识全面注入,让模型把金融知识吃透;第二阶段,专挑最难、最弱的题目用强化学习+目标微调,强化模型复杂推理能力。 相较于传统的SFT和RL,这种高效训练优化策略不仅能够缩短模型迭代周期、降低计算成本,更重要的是能够快速响应金融市场的动态变化,确保模型在风险控制、投资决策、合规监管等真实业务场景中,及时部署,自主“进化”。 值得关注的一点是,这次蚂蚁数科不仅是在提升模型能力上下了功夫。为了验证模型在真实场景中的有效性,他们还在“考试题目”上下了功夫。 就像对于通用模型,人类专家们绞尽脑汁设置“人类最后的考试”,极限考验顶尖模型的性能,蚂蚁数科也希望在金融领域,能面向实际部署,更准确地评估模型的真实效用。 具体来说,Finova是从智能体执行任务能力、复杂推理能力、安全合规能力这三个真实场景中最受关注的维度,来对模型进行考察,共包含1350道金融难题。 金融意图检测:精准识别投资咨询、产物询问、风险评估等复杂金融场景中的用户真实需求金融槽位识别:准确抽取和结构化“万能险”、“科创板”等专业金融术语,构建金融文本理解基础金融工具规划:智能解析用户需求并推荐匹配的金融工具,如投资组合分析、基金对比等金融表达生成:基于多种来源的数据源综合生成准确可靠、严格符合监管要求的专业金融表达 举个例子,面对“能告诉我瑞士法郎兑加元现在报价多少,近期加元为什么跌得这么凶”这样的问题,模型理解用户意图为对“外汇”进行信息查询+分析解读,识别“瑞士法郎”、“加元”等槽位,调用相应查询工具,最后综合多种信息源生成回答。 涵盖资产估值、投资组合优化、风险分析等核心金融业务;考验模型在历史数据分析、结果预测、复杂场景推理等方面的综合表现。 某工业公司2024年4月的财务数据显示:边际贡献总额为 ,000,净利润为 ,000。预计5月份销售量将同比增长5%,假设公司成本结构和固定成本保持不变。则该公司在此期间的经营杠杆系数(DOL)为 __,对应的净利润预期增幅为 __%(结果分别保留一位小数和整数位)。 从实验结果可以看出,Agentar-Fin-R1这样的垂直模型,是行业赛道中的“隐藏王牌”,在实际应用场景中往往能比通用模型更快落地、发挥作用。 有必然性,基因就在那里。作为蚂蚁集团的科技商业化独立板块,蚂蚁数科长期浸润一线,天然具备对金融场景更深度的行业理解和数据积累。 Agentar链接数百个金融MCP,为金融机构规模化应用大模型提供强大的数据生态,并已联合金融行业机构推出超百个金融智能体解决方案,覆盖银行、证券、保险、通用金融等四大领域,能提升一线员工工作效率超80%。


