logo

EASL中国之声丨谢青教授:解锁DILI预后新范式,大语言模型临床价值验证

国际肝病 发表时间:2026/5/31 10:20:52 浏览量:127

编者按:5月27-30日,EASL 2026于西班牙巴塞罗那盛大启幕。上海交通大学医学院附属瑞金医院谢青教授团队的多项研究入选大会壁报展示。其中博士研究生付豪爽的一项研究依托多中心大样本DILI队列,系统对比了GPT、Gemini等大语言模型与不同层级肝病医师的预后预测能力。结果证实,大语言模型整体优于初、中级医师,集成策略可媲美高级医师,跨队列稳定性突出。该成果为DILI精准预后提供AI辅助新范式,为临床决策优化注入新思路,彰显我国肝病智能化研究的前沿实力。



研究简介

摘要号:SAT-067

多中心评估:大型语言模型对比肝病医师在药物性肝损伤患者的预后预测中的表现

Multicenter evaluation of large language models versus hepatologists for prognostic prediction in drug-induced liver injury


研究背景

药物性肝损伤(DILI)是中西方国家急性肝功能衰竭的主要病因之一。此外,约20%的DILI患者会进展为慢性DILI,最终可能发展为肝硬化,严重危害DILI患者的生命健康和生活质量。近年来,包括GPT、Gemini和DeepSeek在内的大语言模型(LLMs)已经取得了长足的进展,这些LLMs可以整合和分析复杂数据,从而为提升临床决策提供新的机遇。然而,这些模型在DILI患者的预后预测中的临床应用价值,尤其是与人类专家的比较,尚未得到充分验证。因此,本研究旨在评估GPT-5.1、Gemini-2.5 Pro和DeepSeek-3.2在DILI患者预后预测中的表现,并将其预测能力与不同临床专业水平肝病专家的能力进行比较。


研究方法

本研究共纳入来自三家医学中心的943例RUCAM评分超过6分的DILI患者。根据其6个月随访结局,将患者分为痊愈组、慢性化组和死亡组。同时按照入组医学中心进一步将DILI队列划分为内部队列和外部队列。采用零样本提示框架对三种LLM进行评估。此外,还应用了三种集成策略:投票法、OR规则和AND规则,以增强三个LLM在内部和外部队列中的预测稳定性。三名分别具有初级、中级和高级临床经验的肝病医师独立评估每位患者进展为慢性化或死亡的概率。模型性能采用受试者工作特征曲线下面积(AUROC)、准确率、灵敏度、特异度,以及LLM与肝病科医师之间的一致性指标进行评估。


研究结果

首先评估了对于慢性DILI的预测性能。在肝病医师中,高级肝病医师的AUROC最高(0.61),准确率最高(70%),灵敏度为41%,特异度为82%,优于初级和中级肝病医师。在LLMs中,GPT-5.1的AUROC最高,达到了0.59,准确率为53%,灵敏度为65%,特异度为49%。GPT-5.1的表现优于初级和中级肝病医师,但数值上仍低于高级肝病医师。DeepSeek的灵敏度最高(0.80),而中级肝病医师的特异度最高(0.86)。Gemini-2.5 Pro与高级肝病科医师的一致性最强(κ=0.43)。

图1. 评估者对于慢性化DILI的预测性能


在总体队列、内部队列和外部队列中,LLM-AND策略的AUROC(0.57-0.61)和准确率(0.64-0.66)均保持稳定,各队列间未观察到明显的性能下降。

图2. 评估者在不同队列预测慢性化DILI的稳定性


接下来进一步评估了对于致死性DILI的预测性能。在肝病医师中,高级肝病医师的AUROC最高(0.87),准确率最高(83%),灵敏度为78%,特异度为83%,优于初级和中级肝病医师。在LLM中,GPT-5.1的AUROC最高(0.86),准确率为77%,灵敏度为83%,特异度为77%,优于初级和中级肝病医师,但仍不及高级肝病科医师。Gemini-2.5 Pro的灵敏度最高(0.86),而中级肝病医师的特异度最高(0.83)。GPT-5.1与高级肝病医师的一致性最强(κ=0.25)。

图3. 评估者对于致死DILI的预测性能


在总体队列、内部队列和外部队列中,LLM-AND策略维持了稳定的AUROC(0.86-0.87)和准确率(0.75-0.81),表现出良好的一致性,未出现明显的队列间差异。

图4. 评估者在不同队列预测致死DILI的稳定性


研究结论及临床意义

大型语言模型在DILI预后预测方面展现出具有临床实践意义的预后能力,其中GPT-5.1和Gemini-2.5 Pro的表现优于初级和中级肝病医师,但不及高级肝病医师。集成策略,尤其是AND规则,增强了模型在多个队列中的预测稳定性,其性能可与高级肝病医师相媲美。本研究结果支持聚合LLM策略作为DILI预后辅助决策工具的潜在应用价值。



(来源:《国际肝病》编辑部)

声明:本文仅供医疗卫生专业人士了解最新医药资讯参考使用,不代表本平台观点。该信息不能以任何方式取代专业的医疗指导,也不应被视为诊疗建议,如果该信息被用于资讯以外的目的,本站及作者不承担相关责任。

版面编辑:张雪   责任编辑:付丽云
本内容仅供医学专业人士参考
相关搜索:  DILI

发表评论

提交评论
  • 相关推荐
  • 学术领域
返回
顶部