【新智元导读】十多年,患者求医无果、束手无策,但将所有病史输入ChatGPT,病因竟被一眼识破:基因突变!微软、OpenAI等巨头的医疗AI已悄然登场,准确率超越专业医生!未来的医疗,或将彻底改写! 后来,他还做了功能医学检测,意外发现他有一种纯合子突变:MTHFR基因A1298C突变。这是一种常见的亚甲基四氢叶酸还原酶MTHFR基因变异,而最常见的变异被称为MTHFR C677T。 每个人都有两份MTHFR基因,分别来自母亲和父亲。上图展示了MTHFR C677T可能的基因型。而MTHFR A1298C发生在MTHFR基因的第1298位。这种突变在美国人群中影响7-12% AI工程师、实时追踪AGI进展的Rohan Paul,听闻此消息,大受鼓舞。他认为:「现在时机已成熟,医疗AI模型给出的第二诊疗意见应该成为医疗实践规范。」 在此之前,她花了十多年时间看医生和自然疗法师,都被告诉那只是心理问题。他们甚至在她提出做检测时翻白眼。她坚持要求检测。结果ChatGPT是对的。 我也是这样做的,只不过是针对子宫内膜异位症(endometriosis)。终于做了超声检查,发现了一个6厘米的子宫内膜异位囊肿(称为子宫内膜瘤,endometrioma),现在已经长到7.3厘米,我打算今年晚些时候切除。 304个NEJM案例被转化为逐步进行的诊疗模拟:像在真实环境中一样,让AI模型或人类医生可以逐步提问、安排检测、获取结果,并实时更新诊断思路,最终给出结论。最后的结论将与NEJM给出的标准答案进行对比。 每一次检测请求都会产生虚拟费用,用以模拟真实医疗资源消耗。据此,研究人员从两个关键角度评估了模型:诊断的准确性和资源的使用效率。 (2)接下来,AI开始问诊,范围涵盖: 既往病史、用药史、恶性肿瘤迹象、病毒感染史、牙科史、出血倾向、常规实验(如血常规、凝血)和影像检查(如颈部MRI)等。 研究人员对目前最具代表性的生成式AI(Generative AI)模型进行了全面评估,覆盖了304个《新英格兰医学杂志》(NEJM)的真实病例。参与评测的基础模型包括GPT、Llama、Claude、Gemini、Grok和DeepSeek等。 与单一模型相比,编排器不仅更善于整合不同来源的数据,还能在医疗环境变化时提供更高的安全性、透明度与适应能力。 这种不依赖于特定模型的架构(model-agnostic)也提升了系统的可审计性和韧性,这两者对于高风险、快速演进的临床场景而言至关重要。 作为对比,实验中也评估了21位来自美英的执业医生,他们拥有5到20年的临床经验。在相同任务中,他们完成的案例平均准确率仅为20%。 若不加限制,AI可能会倾向于开出所有可能的检查项目,而不顾费用、患者感受或诊疗延误。研究发现,MAI-DxO不仅比医生和单一模型更准确,其总体检测成本也更低。 在「诊断准确率」与「平均检测成本」两个维度上,下面的散点图对比了不同AI模型。图中MAI-DxO曲线位于表现最优的左上区域,红色叉号则代表人类医生的平均水平。 医生通常在专业知识的广度或深度之间作出选择。比如,全科医生需面对不同年龄层和系统的广泛问题,而专科医生则专注于某一病种或系统。 然而,NEJM案例的复杂程度远超单一医生所能全面覆盖。而AI不受这一限制,能够兼顾广度与深度。而且在多个方面,AI的临床推理能力已超越人类医生。


