编者按
非酒精性脂肪性肝病(NAFLD)是目前全球最常见的慢性肝脏疾病之一,其发病率正在快速增长,已累及约30%的成人和10%的儿童。在第31届亚太肝脏研究学会(APASL)年会召开之际,中国香港中文大学医学院黄丽虹教授受邀参加了“APASL-脂肪肝评估与治疗”的专题讨论会,并做了精彩的报告。报告中,黄丽虹教授分析了做好NAFLD评估的必要性,概括了当前NAFLD无创性评估的主要进展,并着重介绍了他们团队近年来正在开展的一项基于人工智能的深度学习实现NAFLD评估和筛查的创造性研究。黄丽虹教授的报告发人深省,受到了广泛关注。本刊特将该报告整理成文,以飨读者。
NAFLD临床评估的必要性
2006年,黄丽虹教授团队在一项对80例非酒精性脂肪性肝病(NAFLD)患者进行肝穿病理学检查的研究中发现,这些NAFLD患者中程度不同的肝炎症坏死和肝纤维化比例分别高达81%和65%。2010年,他们又发表了另外一项前瞻性队列研究,共纳入52例肝活检证实为NAFLD的患者,36个月后再次进行肝活检,发现有1/4左右的NAFLD患者发现有肝纤维化进展,即使是单纯脂肪变的患者,也有发生NASH和进展至肝纤维化的风险。因此,如何对NAFLD患者进行评估成为摆在临床医生面前亟需解决的难题。
肝活检是NAFLD诊断的“金标准”?
在缺乏有效替代标志物的情况下,往往需要通过肝活检对NAFLD进行评估。然而,肝活检真的是NAFLD诊断的“金标准”吗?
通常肝活检标本的长度为1-3 cm,直径为1.2-2 mm,仅相当于整个肝脏的1/50000,存在抽样误差的可能性。一项研究纳入41例接受减重手术治疗的病态肥胖患者,在术中对肝脏左叶和右叶分别取活检,由病理医生进行盲法评分,结果发现,对肝脂肪变、小叶炎症、气球样变和纤维化进行评估的Kappa系数分别为88%、32%、20%和53%,对小叶炎症和气球样变评估的一致性较差。
除了抽样误差之外,肝活检存在一些禁忌证和并发症的风险,诸如患者不配合、出血倾向、怀疑肝血管瘤或其他富含血管的肿瘤、怀疑棘球蚴囊(包虫病)、腹水、右侧胸腔或右膈下感染等,肝活检患者有10%~15%发生疼痛,大约0.2%可能发生严重出血。考虑到肝活检需要耗费更多的人力和医疗资源,不适合用于动态监测,一些患者不接受肝活检,少数患者不安全,有严重并发症的风险,所以,肝活检并不适合用作普通人群的研究工具。
肝纤维化的无创性检测
肝纤维化的无创性检测主要包括生物标志物和物理检查方法。常用的生物标志物包括强化肝纤维化系列(enhanced liver fibrosis panel)、FibroTest、Ⅲ型前胶原氨基端肽(PⅢNP)以及FibroMeter、NAFLD纤维化积分、FIB-4指数、BARD评分、天门冬氨酸氨基转移酶和血小板比值指数(APRI)、AST/ALT比值等;常用的物理检查方法主要包括基于FibroScan的振动控制瞬时弹性成像(VCTE)、声脉冲辐射力成像(ARFI)、剪切波弹性成像(SWE)和磁共振弹性成像(MRE)检测等技术。
和单独应用血液标志物相比,联合应用年龄及人体测量参数等指标,诸如HA积分、ELF积分、BAAT积分和NAFLD积分等,可以进一步提高对NAFLD患者重度肝纤维化的检出率。其中,ELF积分对检出NAFLD重度肝纤维化的灵敏度、特异性、阳性预测值和阴性预测值分别为89%、96%、80%和98%,BAAT积分对检出重度肝纤维化的灵敏度、特异性、阳性预测值和阴性预测值分别为71%、80%、61%和86%,NAFLD积分对检出重度肝纤维化的灵敏度、特异性、阳性预测值和阴性预测值分别为82%、77%、56%和93%。
然而,需要注意这些积分系统受到以下因素的限制:重复性较差;检测指标和纤维化有关,但并不直接反映纤维化本身;短暂和动态因素所致的检测累积效应;不同种族的体质指数(BMI)存在差异。
黄丽虹教授团队于2008年发表的一项研究结果表明,应用NAFLD纤维化积分对肝纤维化进行评估的准确性为中等,用于确定F3-4期以及F2-4期肝纤维化的受试者工作特征曲线下面积(AUROC)分别为0.64(95% CI:0.49~0.79)和0.67(95% CI:0.57~0.76)。另外一种常用于评估肝纤维化分期(F0-F4)的FibroMeter积分系统包括透明质酸、血小板计数、凝血酶原时间、AST、ALT、铁蛋白、血糖和患者体重等参数,积分结果与临床显著肝纤维化的可能性相对应。
近年来,肝脏瞬时弹性成像检测肝脏硬度值(LSM)用于无创性评估肝纤维化的研究取得很大进展。分别应用7.0 kPa、8.7 kPa和10.3 kPa作为LSM的切点值,用于预测NAFLD患者为F2、F3和F4期肝纤维化的灵敏度分别为79.2%、83.9%和92.0%,特异性分别为75.9%、83.2%和87.8%。
人工智能让NAFLD筛查变得更简单
那么,是否可以在成千上万的患者中进行上述这些检查?
近年来,随着人工智能(AI)的发展,机器学习也越来越多地应用于医学领域,诸如肿瘤的基因相关性和预后研究,对患者进行远程监测,诊断性监测以及医学影像学等。
黄丽虹教授团队于2017年发表的一项研究,基于临床和实验室常规参数,建立简单易用的机器学习模型,用于在普通人群中检出NAFLD。该项研究从参加筛查的普通人群中,纳入922例参与者,采用MRS诊断NAFLD,随机分为建模组(500例,包括146例NAFLD患者和354例健康人)和验证组(422例,包括118例NAFLD患者和304例健康人),应用Logistic回归、岭(Ridge)回归、AdaBoost算法、决策树模型和随机森林算法,从23项常规临床和实验室参数中,选择用于预测NAFLD的因素。
Logistic回归模型分析表明,在训练组和验证组中,当模型包括6项或以上参数时,AUROC达到稳定,6个预测因素包括ALT水平、低密度脂蛋白胆固醇(HDL-C)水平、甘油三酯、糖化血红蛋白(HbA1c)、白细胞计数(WBC)和高血压,建立预测NAFLD的机器学习模型,在建模组和验证组中,NAFLD ridge评分用于预测NAFLD的AUROC分别为0.87(95% CI:0.83~0.90)和0.88(0.84~0.91)。
决策树模型中的预测参数包括上述6项中的4项参数:ALT、甘油三酯、WBC和HbA1c水平。从根节点到叶节点查阅决策树,可以得出NAFLD决策树评分。例如,如果一位患者的ALT水平低于20.5 U/L,就要检查甘油三酯,如果甘油三酯低于1.85 mmol/L,就要进一步检查HbA1c,如果HbA1c低于6.05%,那么,这位患者诊断NAFLD的可能性很小,仅为0.04。相比之下,如果一位患者的ALT水平超过31.5 U/L,甘油三酯超过1.25 mmol/L,这位患者诊断NAFLD的可能性高达0.84,确定0.27和0.57为两个切点值,用于诊断NAFLD的决策。
在普通人群中,NAFLD岭评分用于排除NAFLD的性能最高,计算公式为:-0.614+0.007×ALT-0.214×HDL-C+0.053×甘油三酯+0.144×HbA1c+0.032×WBC+0.132×高血压,应用0.24和0.44两个切点值,NAFLD ridge评分的灵敏度和特异性分别为92%(86%~96%)和90%(86%~93%),阴性预测值和阳性预测值分别为96%(91%~98%)和69%(59%~78%)。
因此,根据简单易用的NAFLD岭评分,临床医生可以准确排除NAFLD患者,可用于大规模流行病学研究和健康数据库研究。不过,多数计算机化的数据源存在人体测量参数的缺失,可能使其应用受到限制。
人工智能将给NAFLD等慢病管理带来极大益处
在包括医疗保健的日常生活中,AI的应用越来越普遍,为包括NAFLD及肝纤维化等慢性肝病患者的照护带来许多新认识。在传统有创性(肝活检)和无创性检查方法(瞬时弹性成像、血清生物标志物或临床预测模型)的基础上,有多种途径可以应用AI技术。
美国、英国、中国和新加坡等国家和地区的研究人员开展了多项研究,应用基于AI的组织学,对肝纤维化分期进行评估。应用不同类型的输入数据,建立不同类型的AI模型,可以准确预测NAFLD患者的肝纤维化分期。对组织学切片进行基于AI的图像分析,对肝纤维化的各种特征进行量化分析,可以更加准确地评估肝纤维化分期。
AI的深度学习是机器学习的一种类型,而神经网络又是深度学习的一种。在疾病诊断方面,由AI建立的专家系统将有望超出目前一般临床医生的诊疗水平;而基于AI的深度学习而建立的预测模型,将大大提高对非酒精性单纯脂肪肝和NASH的广泛筛查和准确评估。