肝癌是全球最常见的恶性肿瘤之一,虽然整体病死率高,但5年生存率有着极大的差异,病灶<2 cm的单发肿瘤的5年生存率可达到91.5%。提高肝癌早期诊断准确性对于改善患者生存有重要意义。近年来,人工智能被认为有望在全球范围内带来巨大的医疗效益,能否成为肝癌临床诊断的重要工具?
第57届欧洲肝病研究学会年会(EASL2022)暨2022年国际肝脏大会TM(ILC 2022)上,中国香港大学深圳医院/中国香港大学司徒伟基(Wai-Kay Seto)教授报道了其团队针对肝癌诊断的最新人工智能研究:基于计算机断层扫描准确诊断肝细胞癌的三维深度学习算法的训练、验证和测试(摘要编号:OS105)。该项研究开发、验证和测试了一种三维深度学习算法——MS3DCN,该算法的HCC诊断性能优异,远超肝脏影像报告和数据系统(LI-RADS),将人工智能应用于临床推进了一大步,具有重要意义。《国际肝病》有幸邀请到司徒伟基教授详细介绍研究和新算法,内容分享如下。
司徒伟基教授在ILC 2022英国伦敦会场
肝癌是全球最常见的恶性肿瘤之一,预计在2040年,肝癌相关死亡人数将达到133万[1]。亚洲东部是全世界主要的肝癌高发地区,其年龄标准化死亡率(/10万)在男、女性中分别达到了24.5和8.0[1]。在东亚,慢性乙型肝炎病毒(HBV)感染是肝细胞癌(Hepatocellular Carcinoma,HCC)的主要危险因素,感染人群的HCC终生风险在10%~25%之间[2]。肝癌的病死率达到91.4%,远超大多数常见的癌症[1]。然而,基于不同的肿瘤分期,HCC的5年生存率有着极大的差异。病灶<2 cm的单一肿瘤的5年生存率为91.5%,而肿瘤晚期伴有邻近器官受损的生存率仅为11%[3,4]。
一般来说,HCC诊断是通过造影增强计算机断层扫描(Computed Tomography,CT)或磁共振成像的高特征动态模式,并应用肝脏影像报告和数据系统(Liver Imaging Reporting and Data System,LI-RADS)对肿瘤进行分类,其最高类别(LR-5)对诊断HCC有很高的准确性[5,6]。然而,不确定类别(也就是LR-2至LR-4及LR-M)尚缺乏明确的诊断,易导致后续临床中不必要的检查和监测造成的损伤。而在高危人群中,高达49%的影像结果被归类为不确定,使得HCC早期诊断仍困难重重[5]。
人工智能被认为有望在全球范围内带来巨大的医疗效益。医学影像是最适合于人工智能应用的领域之一,通过深度学习(Deep Learning)对影像数据进行复杂的模式识别,进而对影像学特征进行定量评估。应用于HCC影像诊断的人工智能算法,目标是提高诊断准确性,减少医生误诊,减少进一步检测的需要,从而降低医疗系统的成本和工作量。相比于传统机器学习(Machine Learning)需要经注释的具体特征数据,深度学习能通过神经网络模拟人脑对数据表征直接进行分析学习,而这要求大量的、高质量的数据(图1)。因此,基于通过大样本、多中心的CT图像和临床数据,本研究开发、验证和测试了一种HCC影像诊断的深度学习算法。
图1.人工智能、机器学习及深度学习之分别
本研究回顾性地纳入2013年至2020年来自6家医疗中心的亚洲人(年龄≥18岁),并收集了薄切(层厚≤1.25 mm)CT对比肝脏图像和相关临床信息。CT图像包括了无造影剂期、肝动脉期、肝门静脉期和延迟期。为了提高模型对真实临床环境的稳健性、普及性和适应性,研究者采用数据驱动方法,即纳入不同CT扫描仪器以及所有能衍生出LI-RADS诊断类别的CT影像。研究排除了经HCC局部治疗后的病例,包括热消融、经动脉化疗或放疗栓塞和体外放射治疗。HCC的诊断遵循美国肝病研究协会(AASLD)指南,并通过患者随后12个月的临床和影像学进展进一步确诊。
内部影像数据集以7:3的比例随机分成训练集和验证集,并在外部数据集中进行测试。基于内部数据集,本研究开发了4种三维深度学习模型,包括多尺度三维卷积网络模型(Multi-Scale Three-Dimensional Convolutional Network model,MS3DCN),卷积三维(Convolutional Three-Dimensional,C3D),三维残差网络(Three-Dimensional Residual Network,3DResNet)和三维挤压-激励(Three-Dimensional Squeeze-and-Excitation, 3DSE)。为了使模型具有可解释性,本研究基于HCC发生概率构建了肝脏三维热图。同时,我们开展了多种灵敏度分析,以确定分类模型的稳健性。
本研究内部影像数据筛选了2630例病例,最终共纳入2281例(86.7%)。纳入人群的平均年龄为58.4(±14.3)岁;其中,1354例(59.4%)存在慢性肝病,1214例(53.2%)是HCC高危人群。研究共收集了3620个病灶(1.58个/病例),直径中位数为21(13~41)mm。在所有病例中,共687例(30.1%)被归类为HCC。研究者分别训练了4种深度学习模型,其诊断性能都优于LI-RADS(图2)。
其中,表现最好的模型是MS3DCN,在病灶和患者水平上的AUC达到了0.973(95%CI:0.963~0.983)和0.972(95%CI:0.956~0.983),远高于LI-RADS(AUC:0.853,95%CI 0.825~0.881和AUC:0.852,95%CI:0.820~0.881)。MS3DCN的阴性预测值(negative predictive value,NPV)尤其优秀,分别为0.990(95%CI:0.984~0.996)及0.993(95%CI:0.973~0.992)。另外3个模型(3DSE、3DResNet和C3D)在病灶水平的AUC在0.948(95%CI:0.930~0.958)至0.967(95%CI:0.954~0.976)之间,在患者水平上在0.945(95%CI:0.922~0.960)至0.956(95%CI:0.940~0.971)之间,也显著优于LI-RADS,但低于MS3DCN。
图2. 在验证中四种深度学习模型及LI-RADS诊断性能
在高危人群中,MS3DCN也同样保持优异的诊断性能,在病灶和患者水平上的AUC分别为0.973(95%CI:0.959~0.986)和0.967(95%CI:0.946~0.985),显著优于LI-RADS(AUC:0.852,95%CI:0.821~0.882和AUC:0.849,95%CI:0.815~0.881)。
我们亦进一步分析了深度学习模型在不确定类别(LR-2、LR-3、LR-4、LR-M)中的性能。在验证集的不确定类别的病例中(其30.1%确诊为HCC),MS3DCN在病灶和患者水平的AUC分别为0.946(95%CI:0.920~0.971)和0.926(95%CI:0.889~0.959)。针对病灶大小的灵敏度分析,在直径2-5 cm病灶的验证集中,MS3DCN在病灶和患者水平上的AUC分别为0.923(95%CI 0.895-0.950)和0.918(95%CI 0.886-0.949),而LI-RADS的AUC则为0.753(95%CI 0.708-0.797)和0.729(95%CI 0.677-0.780)。
在<2 cm病灶的验证集中,MS3DCN的AUC虽下降至0.853(95%CI 0.822~0.883)和0.883(95%CI:0.848~0.917),但仍优于LI-RADS (0.625,95%CI:0.582~0.667)。在针对CT动脉期和门静脉期的灵敏度分析中,在病灶和患者水平上,MS3DCN在动脉期的AUC分别为0.970(95%CI:0.958~0.980)和0.969(95%CI:0.956~0.982),在门静脉期的AUC分别为0.973(95%CI:0.963~0.983)和0.970(95%CI:0.954~0.981)。
独立外部数据集包括了551例病例和780个病灶,其中361个(46.3%)病灶被确诊为病理确认的HCC。MS3DCN在病灶和患者水平的AUC分别为0.984(95%CI:0.975~0.992)和0.979(95%CI:0.967~0.991),显著优于LI-RADS(AUC:0.897,95%CI:0.875~0.918; AUC:0.877,95%CI:0.845~0.904)(图3)。3DSE、3DResNet和3CD的诊断性能相似,显著优于LI-RADS,但在数值上都低于MS3DCN,其AUC在0.946(95%CI:0.931~0.960)至0.968(95%CI:0.955~0.980)之间。
图3.在测试中,四种深度学习及LI-RADS诊断性能
基于HCC发生概率,研究者根据MS3DCN构建了三维肝脏热图,来增加模型的解释性(图4)。错误分类病灶在内部验证和外部测试中,分别存在20个(1.8%)和15个(1.9%)。
图4.三维肝脏热图
研究结论
该项研究开发、验证和测试了一种三维深度学习模型——MS3DCN。结果显示,在CT上,MS3DCN的HCC诊断性能优异,远超LI-RADS。透过多项灵敏度分析,MS3DCN的诊断表现维持稳健。需注意,错误分类的机会虽小但仍然存在,也代表人工智能的临床定位应作为决策辅助,而并非独立主导临床决定。在探索HCC诊断的过程中,深度学习是一种有价值的工具。数据质量及代表性也是人工智能临床研究的成功关键。
参考文献:
1. Ferlay, J., et al., Cancer statistics for the year 2020: An overview. Int J Cancer, 2021.
2. McGlynn, K.A., J.L. Petrick, and W.T. London, Global epidemiology of hepatocellular carcinoma: an emphasis on demographic and regional variability. Clin Liver Dis, 2015. 19(2): p. 223-38.
3. Wang, J.H., et al., Survival comparison between surgical resection and radiofrequency ablation for patients in BCLC very early/early stage hepatocellular carcinoma. J Hepatol, 2012. 56(2): p. 412-8.
4. Shindoh, J., et al., Microvascular invasion does not predict long-term survival in hepatocellular carcinoma up to 2 cm: reappraisal of the staging system for solitary tumors. Ann Surg Oncol, 2013. 20(4): p. 1223-9.
5. Chernyak, V., et al., Liver Imaging Reporting and Data System (LI-RADS) Version 2018: Imaging of Hepatocellular Carcinoma in At-Risk Patients. Radiology, 2018. 289(3): p. 816-830.
6. van der Pol, C.B., et al., Accuracy of the Liver Imaging Reporting and Data System in Computed Tomography and Magnetic Resonance Image Analysis of Hepatocellular Carcinoma or Overall Malignancy-A Systematic Review. Gastroenterology, 2019. 156(4): p. 976-986
专家简介
司徒伟基
教授,医学博士,现为中国香港大学深圳医院消化内科主管,中国香港大学内科学系肠胃肝脏科临床教授,肝病研究国家重点实验室(中国香港大学)主要研究员。他在高影响力的国际性SCI消化及肝脏期刊发表了230余篇论文,包括以第一作者或通讯作者发表在Lancet、Journal of Clinical Oncology、Lancet Global Health、Journal of Hepatology、Gut、Hepatology等。2016~2017年被授予中国香港大学杰出青年研究员奖,2017年被授予广东省卫计委杰出青年医学人才,2018年获得亚太消化病周协会颁发的Asia-Pacific Disease Week Emerging Leader,2019年被授予香港内科专科学院达安辉教授命名讲座,2021年获授予美国胃肠协会院士。
往期推荐