2024年03月02日发布 | 1122阅读

【中国声音】基于卷积神经网络进行术前垂体腺瘤海绵窦侵袭检测的多中心应用

王任直

中国医学科学院北京协和医院

王守森

解放军联勤保障部队第900医院

周刊收录


REF: Fang Y, Wang H, Cao D, et al. Multi-center application of a convolutional neural network for preoperative detection of cavernous sinus invasion in pituitary adenomas. Neuroradiology. 2024;66(3):353-360. doi:10.1007/s00234-024-03287-1

PMID: 38236424

第一作者:方翌

通讯作者:王任直,王守森



摘 要


目的:海绵窦侵袭(CSI)在垂体腺瘤诊疗中具有重要作用。本研究旨在开发一种卷积神经网络(CNN)模型,用于多中心CSI的诊断。


方法:本研究回顾分析了自2011年1月至2021年12月在5个医疗中心中诊断为垂体腺瘤的病例729例,根据术中诊断分为存在CSI(n=543)和无CSI(n=186)。使用来自两个垂体中心的T1增强的MRI序列数据训练CNN模型(n=647)。导入其他3个市级医疗中心(n=82)数据作为外部测试集,以评价模型性能。受试者工作特征曲线下面积(AUC-ROC)分析用于评价预测性能。梯度加权类激活映射(Grad-CAM)用于确定模型的感兴趣区。


结果:CNN模型在外部测试集中识别CSI取得了较高的诊断准确性(89%),AUC-ROC值为0.92(95%CI,0.88-0.97),优于利用肿瘤直径(AUC-ROC:0.75)、肿瘤长度(AUC-ROC:0.80)和Knosp分级系统的3种二分法(AUC-ROC:0.70-0.82)进行预测。在Knosp分级3A的病例(n=24,CSI发生率:0.35)中,模型的预测准确性为78%,灵敏度和特异度分别为0.72和0.78。根据Grad-CAM结果,证实了模型预测所依据的位置在CSI所在的区域。


结论:深度学习模型能够准确地识别CSI,并能较好地定位多中心CSI。




引 言



垂体腺瘤(PA)被认为是良性颅内肿瘤,如果存在进袭性(aggressive),影像学上会侵犯蝶窦、鞍隔和海绵窦。由于出血和颅神经损伤等风险,这些肿瘤的全切除难度大。而肿瘤残留是导致术后激素异常不缓解和肿瘤复发率高的重要原因。因此,海绵窦侵袭(CSI)需要早期识别和诊断,并及时得到专家团队的治疗。但诊断CSI的金标准仍依赖于术中观察。许多研究是基于MR图像来识别诊断CSI,存在大量病例的术前CSI诊断并不明确。


卷积神经网络(CNN)是一种深度学习模型,这种算法的构建旨在学习和分析数据内错综复杂的模式。既往的研究已证明其在通过病理诊断和放射学图像分析方面具有可靠性。深度学习诊断模型的发展有可能提高放射学CSI诊断的整体水准。此外,使用标准化模型进行识别可以缓解与人工阅片相关的偏倚。这意味着CNN可以作为一项识别CSI的相当有前景的工具。


本研究的目的是开发和训练一种有效的深度学习模型来识别CSI,同时评估其多中心的应用价值。



材料与方法



伦理和知情同意


北京协和医院(PUMCH)、福州总医院(FGH)、扬州市第一人民医院(YFPH)、福建医科大学附属第二医院(SAH)和铜陵市人民医院(TPH)的机构审查委员会已批准本研究。由于其回顾性设计,知情同意的需求被免除。研究过程符合赫尔辛基宣言的伦理要求。

患者队列


我们进行了一项回顾性、连续抽样的研究,时间跨度自2011年1月至2021年12月,共涵盖了5个医疗中心,其中包括2个垂体中心(PUMCH和FGH)和3个市级医疗中心(TPH、SAH和TPH)。研究旨在建立深度学习模型。


研究的纳入标准为:(1)病理确诊为PA;(2)存在有无CSI的术中诊断;(3)有术前1个月内的T1加权增强成像。排除标准包括二次手术或开颅手术、合并鞍区病变以及成像伪影的病例。


研究队列共计729例多中心PA手术患者,分别来自PUMCH(n=411)、FGH(n=236)、YFPH(n=44)、SAH(n=24)和TPH(n=14)。本研究收集了基本临床数据,包括性别、年龄、肿瘤直径、横径(长度)、Knosp分级和切除程度。


图像采集和评价


在每个研究中心中,相应的成像设备具体如下:FGH采用Trio 3.0T,Siemens;PUMCH采用Discovery MR750 3.0T,G.E.;YFPH采用Verio 3.0T,Siemens;SAH采用Hdxt 1.5T,G.E.;TPH采用Achieva 3.0T,Philips。有关成像参数的详细信息请参见附录(略)。


入组图像是临近手术日期最近一次冠状位T1加权增强扫描结果(见图1)。本研究同时评估了肿瘤的直径、长度和Knosp分级系统。此外,根据术后3个月进行的MRI扫描结果评估切除范围。对于术中证实无CSI的患者,选取肿瘤最大面积的层面。采集CSI病例图像的测量和评估过程由各自中心具有超过5年PA诊疗经验的神经外科医师(FGH/JL、PUMCH/MF、YFPH/DC、SAH/SC和TPH/CQ)进行。随后,由垂体中心的阅片人(SW和RW)对结局进行审查,以验证和解决不同研究中心的潜在观察者偏倚。

图1. 研究流程示意图。


图像预处理


为了构建、验证和测试模型,我们将数据集划分为不同的子集。在PUMCH和FGH,我们采用4:1的比例将患者随机分配到训练集和验证集中,以确保有效的模型训练。而剩余的三个市级医疗中心的图像则构成了模型诊断和泛化性能评估的外部测试集。所有原始图像均经过裁剪,包括零填充和重新调整大小的组合,最终转化为428×428的方形图像。对于训练和验证集,我们采用了旋转(不超过90°)和水平翻转等数据增强技术,以增加训练数据的变异性,提高模型的泛化能力。


模型训练


本研究采用了基于深度学习的图像识别和分类模型,即ResNet50,并利用PyTorch框架进行构建。ResNet50包含50层网络结构,其特征是一系列残差模块。为了适应二进制分类任务,模型的全连接层进行了必要的调整,生成了一个包含两个节点的输出层,用于准确识别图像中是否存在CSI的PA。


在本研究中,首先利用了既往研究中的367个样本对ResNet50模型进行了预训练。随后,对ResNet50模型进行微调,设定学习率为0.0001。在训练和验证阶段,除了全连接层内的模型参数被重新训练外,其余参数保持不变。随后,采用了五折交叉验证的方法对模型进行了训练和测试。在模型构建完成后,利用外部测试集对其进行了诊断性能的评估。


CNN模型在一台搭载NVIDIA GeForce RTX 2060显卡的计算机上进行了训练。模型优化器为SGD。每个训练批次设置32张图像,以维持梯度的稳定性,并利用早停法的策略来缓解过度拟合的可能性。


数据分析和模型评估


采用SPSS 25.0版进行统计分析。对于分类变量,使用卡方检验或Fisher确切概率法进行分析;对于连续变量的差异,使用独立样本t检验进行评估。在双侧p值小于0.05的情况下认为具有显著性。为评估模型性能,我们将模型的预测结果与实际图像标签构建混淆矩阵,其中包括真阳性、假阳性、假阴性和真阴性结果。我们使用Python中的Scikit-learn软件包计算评价指标,包括诊断准确性、敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)、精确度、召回率、F1分数和诊断比值比(DOR)。此外,受试者工作特征曲线下面积(AUC-ROC)也被用于确定CNN模型的诊断性能。

虽然预测值可以从训练的模型中推导出来,但确定与这些预测相关的感兴趣区(ROI)至关重要。本研究通过集成梯度加权类激活映射(Grad-CAM)模块,实现热图可视化,提高了黑盒神经网络模型的可解释性。Grad-CAM可以帮助确定关于模型检测的更多细节。


结 果



一般特征


在5家医疗中心收集了PA患者的基本临床数据,详见表1(略)。研究队列包括729例被诊断为PA的患者,其中343例为男性,386例为女性,平均年龄为48.3±14.1岁。根据术前T1增强序列,肿瘤的平均直径为24.6±9.1mm,长度为21.4±7.3mm。在这些病例中,449例患者表现出低Knosp分级(0-2级),而280例患者具有高Knosp分级(3-4级)。手术确认了186例病例中的CSI(详见表2),分布如下:1级(n=5,2.7%)、2级(n=24,12.9%)、3A级(n=85,45.7%)、3B级(n=29,15.6%)和4级(n=43,23.1%)。值得注意的是,3A级(44.6%)的CSI发生率低于3B级(62.8%)和4级(97.7%),但3A级肿瘤是CSI病例中最常见的级别。在接受术后3个月MRI的468例患者子集中,149例CSI病例中的59例(39.6%)接受了GTR,而319例无CSI病例中的256例(80.3%)接受了GTR。


多中心结果


在FGH和PUMCH两个垂体中心中接受肿瘤切除的CSI病例分别占26.8%和25.0%。FGH和PUMCH的GTR率分别为43.8%和41.3%。相反,在三家市级医院(TPH、SAH和TPH)中,积极切除PA的实践并不常见,因为神经外科团队的手术经验有限。尽管一些涉及CSI的病例在这些医院接受了切除(范围为16.7%-22.3%),但GTR率明显较低(范围为0%-12.3%)。


预测CSI的临床因素


在总计729例病例中,与无CSI的PA病例相比,存在CSI的PA病例显示出更高的Knosp分级(p<0.001)、更大的肿瘤直径(p<0.001)和更长的肿瘤长度(p<0.001)。Knosp分级被证实是最有效的诊断指标,其预测表现结果最佳(AUC-ROC=0.87,cutoff=2.5),其次是肿瘤直径(AUC-ROC=0.74,cutoff=23.45mm)和长度(AUC-ROC=0.71,cutoff=23.95mm)。详见图2。

图2. 不同临床因素进行CSI诊断的ROC曲线。Knosp分级预测结果最佳(AUC-ROC=0.87,cutoff值2.5),随后为肿瘤直径(AUC-ROC=0.74,cutoff值23.45mm),肿瘤长径(AUC-ROC=0.71,cutoff值23.95mm)。


CSI诊断的深度学习模型


CNN模型使用PUMCH和FGH的图像并采用五重交叉验证方法进行训练(n=647)。在训练集中,诊断准确性达到0.94,在验证集中达到0.87。在外部测试集(n=82)中,CNN分类器的CSI诊断准确性达到0.89±0.07,灵敏度/召回率为0.77±0.10,特异性为0.95±0.04,阳性预测值/精确度为0.87±0.08,阴性预测值为0.89±0.09。通过比较,CNN模型的表现优于临床因素(见表3,略),包括肿瘤直径(DOR:19.86,F1评分:0.52)、长度(DOR:19.58,F1评分:0.60)和Knosp分级系统的三种二分法(DOR:18.60-30.71,F1评分:0.47-0.62)。CNN模型的AUC-ROC测量值为0.92(95%CI:0.88-0.96),优于肿瘤直径(AUC-ROC=0.75)、长度(AUC-ROC=0.80)和Knosp分级(AUC-ROC:0.70-0.82),使用临界值作为分类标准。这些发现证实了CNN模型诊断CSI的可靠性。

图3. CNN模型五折交叉验证训练后,对测试集上样本进行CSI诊断的ROC曲线。


在23例3A级肿瘤中,手术证实存在8例CSI。将3A级肿瘤归类为CSI时,诊断准确率达到39.1%。然而,当将3A级肿瘤视为非CSI病例时,该准确性增加至60.8%。另外,使用来自肿瘤直径的cutoff值,导致15例非CSI病例被错误分类为CSI,诊断准确性降低至34.8%。同样,应用基于肿瘤长度的cutoff值,导致14例非CSI病例和1例CSI病例的错误分类,诊断准确性降低至34.8%。CNN模型在识别Knosp 3A级PA的CSI方面表现出较低的准确性,但尽管与其他Knosp分级相比,该模型显著提高了诊断准确性至0.78,相应的灵敏度和特异性值分别为0.72和0.78。然后,两名神经外科医师,初级和高级,评估了23例患者的侵入性,准确率分别为0.62和0.76。CNN模型在诊断CSI方面优于低年资神经外科医师。


Grad-CAM结果显示CNN模型的CSI预测位置精确地集中在CSI区域。此外,热图显示了模型的高度集中的焦点位置,对于表现出侵袭的样本,模型对于超出侵袭位置的关注度小。Grad-CAM提高了模型的可解释性和可靠性,有助于CSI定位。


图4. 利用CNN层定位CSI的示例。这些图像由训练后的CNN模型的Grad-CAM生成。热图颜色表示不同水平的激活,从极高(红色)和高(深红色)到低(白色)和极低(深蓝色)。ROIs结果显示CNN模型能够利用热图输出进行CSI区域定位。



讨 论



PA是颅内常见肿瘤,许多基层医院都能够独立诊疗无明显并发症的简单病例。然而,PA也会表现出侵袭性。虽然侵袭性(invasive)不一定与进袭性(aggressive)PA完全同义,但侵袭性是影响不完全切除、治疗失败和复发(尤其是CSI)的重要因素。这些病例应及时转诊至有经验的临床医生和配备先进设备的垂体中心,以达到完全切除或有效控制肿瘤复发的目标。因此,准确识别CSI病例至关重要。


尽管开发了几种放射学方法来识别CSI,但侵袭性的特征并不容易区分,仍然具有挑战性。本研究利用两个垂体中心的数据开发了CSI诊断模型,并在其他市级医院进行CSI的诊断应用时证明了该模型是具有较好前景的,达到了89%的准确率。值得注意的是,对于Knosp 3A级的病例,模型的诊断准确率也达到了78%。该模型在评估CSI方面的有效性超过了常规危险因素,如肿瘤直径、长度和Knosp分级系统。此外,CNN模型可以达到高级神经外科医师的CSI诊断熟练程度。


最后,我们使用Grad-CAM实现了模型特征的可视化,用于验证CNN模型进行CSI诊断关注的位置与实际肿瘤侵袭部位之间的对应关系。值得强调的是,CNN模型的识别位点表现出较高的精确度,这意味着它在提取相关信息方面的有效性,而不是毫无依据地处理数据。CNN的这一固有属性有助于临床医生增强对肿瘤侵袭程度的评价,从而丰富教育课程中对图像特征的直观理解,促进有效的医患沟通。

优势和局限性


模型的训练基于传统的T1增强序列,这些序列很容易获得并且不需要额外的特定序列或昂贵的先进设备。值得注意的是,CNN模型消除了手动描绘感兴趣区域(ROI)的必要性,从而减轻了相关的工作量。此外,该模型证明了对来自不同成像设备和参数的图像异质性的弹性。与传统的临床模型形成鲜明对比的是,深度学习模型具有在不同的医疗中心不断更新参数和解决诊断任务的适应能力。然而,本研究存在一些局限性,主要源于回顾性设计。本研究只利用了冠状面图像,因此未能进行三维空间配置的评估,如肿瘤体积。此外,在不同Knosp分级的肿瘤中的诊断准确性存在差异,比如在3A级肿瘤中的诊断准确性要低于其他分级。因此,该模型需要进一步完善和开发,以解决这一限制。


结 论


CNN模型可以利用T1加权对比增强序列扫描来预测CSI。该模型对CSI表现出较高的诊断性能,并且能够与跨中心数据进行集成和训练。其卓越的泛化能力使其可以在多个中心进行应用。CNN的可视化模块有助于诊断中基础特征的识别,提高了模型诊断的可信度。目前,CNN模型在CSI诊断中已经证明了实质性的可行性,值得进一步完善和广泛应用。



通讯作者简介



王任直 主任医师

中国医学科学院北京协和医院

  • 主任医师,教授,博士生导师,北京协和医院神经外科教研室主任、北京协和医学院再生医学系副主任,香港中文大学(深圳)医学院顾问

  • 从事神经外科临床、科研和教学工作四十年,善于处理神经外科各种疑难复杂问题,尤其擅长于垂体腺瘤、脑胶质瘤、脑血管病、颅咽管瘤、颅底肿瘤、脑干肿瘤等疾病的诊断和治疗

  • 作为首席科学家和课题负责人,承担国家863课题三项;国家自然科学基金委重大课题一项,面上课题多项,国家科技部重大研究前期专项一项,省部级课题多项

  • 作为第一作者或通讯作者,发表中、英文论著200余篇,获得国内外专利八项,主编或主译各类医学论著及医学类教科书18部,组织编写各类疾病共识或指南二十余部。曾获国家科技进步一等奖一项(参加),国家发明二等奖一项,中华医学科技进步一等奖一项、三等奖一项,国家教委科技进步二等奖三项,北京市科技进步三等奖一项

王守森 主任医师

中国人民解放军联勤保障部队第九〇〇医院

  • 神经外科主任,颅底组和小儿组组长,主任医师,医学博士

  • 福建医科大学和厦门大学兼职教授,博士生导师

  • 担任全军神经外科学会常委,福建省中西医结合学会神经外科分会副主委,中国垂体腺瘤协作组委员等学术职务,享受军队一类优秀科技人才岗位津贴

  • 曾在武汉协和医院、庆应大学病院、东京女子医大病院、MD Anderson癌症中心和Charité医院进修学习

  • 培养毕业硕士生60余名、博士生11名、博士后4名

  • 以第一作者发表论文132篇(其中SCI论文28篇),主编专著5部,主译专著2部,以第一贡献人获省部级科技二等奖3项、三等奖3项,授权国家新型实用专利4项

  • 2015年获评为原南京军区科技领军人才,2020年获全国第四届“白求恩式好医生提名奖”,2020年全国神经外科专家影响力排名第46名

  • 擅长颅脑肿瘤和血管病的微创手术,在垂体腺瘤诊疗方面达到国内先进水平

声明:脑医汇旗下神外资讯、神介资讯、神内资讯、脑医咨询、Ai Brain 所发表内容之知识产权为脑医汇及主办方、原作者等相关权利人所有。

投稿邮箱:NAOYIHUI@163.com 

未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。

最新评论
发表你的评论
发表你的评论

临床研究

4942内容1210阅读

进圈子
来自于专栏
关键词搜索