2023年12月08日发布 | 769阅读
肿瘤

利用自然语言处理技术从MRI影像学中提取和分析信息,以预测胶质瘤的IDH基因变异状态

龚振宇

慕尼黑工业大学附属伊萨尔河右岸医院

徐涛

海军军医大学附属长征医院






































































































































韩国延世大学附属医院的Seung-Koo Lee团队研究假设影像学报告中包含了与肿瘤患者基因型相关的信息。评估使用常规MR放射科报告预测弥漫性胶质瘤中IDH突变状态的NLP模型的性能。研究成果发表在2023年8月的《Eur Radiol》。


——摘自文章章节

REF: Kim M, et al. Natural language processing to predict isocitrate dehydrogenase genotype in diffuse glioma using MR radiology reports [published online ahead of print, 2023 Aug 11]. Eur Radiol. 2023;10.1007/s00330-023-10061-z. doi:10.1007/s00330-023-10061-z


研究背景




自然语言处理(NLP)越来越多地被用于从电子病历中提取描述性信息中的信息,包括影像学报告。医学影像在诊断疾病和监测肿瘤患者的治疗反应中起着核心作用,影像学报告也逐渐成为影像科数据的宝贵来源。异柠檬酸脱氢酶(IDH)突变是弥漫性胶质瘤中的一个重要分子标记物,具有预后意义,是WHO中枢神经系统肿瘤指南中分类弥漫性胶质瘤的基础。影像科医生通过影像学报告解释影像学发现,这些报告包含了各种影像特征,如大小、位置、形态、边缘、坏死、病灶数量以及增强和非增强病变的特征。影像学报告中以非结构化自由文本形式包含了丰富的肿瘤表型资源,可以通过NLP进行自动识别和信息提取。韩国延世大学附属医院的Seung-Koo Lee团队研究假设影像学报告中包含了与肿瘤患者基因型相关的信息。评估使用常规MR放射科报告预测弥漫性胶质瘤中IDH突变状态的NLP模型的性能。研究成果发表在2023年8月的《Eur Radiol》。


研究方法



在这项回顾性研究中,研究者从两家大型三级医院的影像科电子数据库中筛选了IDH基因突变状态已知的弥漫性胶质瘤患者。纳入时间为2009年5月至2021年11月,所有患者的MR影像报告是在病理学诊断之前完成的。通过免疫组化和rt-PCR来确定IDH1/2的突变状态。排除了在已知IDH突变状态的病理学诊断后才录入术前MR报告和非英文MR报告的患者。共纳入了1627名患者,其中900名来自延世医院,527名来自亚洲医学中心。基于患者的磁共振影像学报告,开发了五种NLP模型来预测IDH突变状态。LSTM和BiLSTM模型从头开始使用训练集进行开发,而BERT、BERT GCN和BioBERT使用了预训练权重。研究还邀请了两位神经影像学专家和一位神经外科医生评估内部和外部验证集中的影像学报告,以预测IDH突变状态。最终,利用受试者工作特性曲线(AUC)下的面积、敏感性、特异性等参数对NLP模型和人工阅读的性能进行了评估。


研究结果



在这项研究中,训练集中有720名患者,内部验证集中有180名患者,外部验证集中有527名患者。训练组和验证组中患者的年龄和性别没有差异。外部验证集显示IDH突变患者比例最高(28.3%,527例中的149例;p<0.001)。少突胶质细胞瘤、IDH突变型和1p/19q共缺失(p<0.001)患者与胶质母细胞瘤、IDH野生型(p<0.001)患者的比例存在显着差异。


在内部训练集中,NLP-BioBERT显示出最高的性能(AUC 0.86;95%CI,0.78-0.92)。这与BERT GCN(AUC 0.84;95%CI,0.76–0.89;p=0.41)和BERT(AUC 0.83;95%CI,0.75–0.90;p=0.42)的性能相当,但高于LSTM的性能(AUC 0.64;95%CI,0.53–0.74;p=0.005)和BiLSTM(AUC 0.66;95%CI,0.55–0.77;p=0.005)。BioBERT的表现高于一位神经放射科医生(AUC 0.70;95%CI,0.60-0.80;p=0.02)。


在外部验证集中,NLP-BERT GCN显示出最高的性能(AUC 0.85;95%CI,0.81–0.89)。这与BERT(AUC 0.85;95%CI,0.81–0.88;p=0.98)和BiLSTM(AUC 0.81;95%CI,0.76–0.85;p=0.10)的性能相当,但高于LSTM(AUC 0.77;p=0.10)。95%CI,0.72–0.81;p=0.003)和BioBERT(AUC 0.81;95%CI,0.76–0.85;p=0.03)。BERT GCN的表现高于其中一位神经影像科医生(AUC 0.80;95%CI,0.76-0.84;p=0.005)和神经外科医生(AUC 0.79;95%CI,0.76-0.84;p=0.04)。


研究结论



综上所述,本研究证明了NLP模型可以使用常规的MRI影像学报告来预测弥漫性胶质瘤的IDH突变状态,且基于transformer的模型在性能上优于或至少与人类读者相当。这表明NLP可以应用于肿瘤患者的常规影像学报告,以进一步提供关于癌症基因型的信息,并实现个性化医疗。

组稿

徐涛 副教授

海军军医大学附属长征医院

编译

龚振宇 医师

慕尼黑工业大学附属伊萨尔河右岸医院

审校

徐涛 副教授

海军军医大学附属长征医院

声明:脑医汇旗下神外资讯、神介资讯、神内资讯、脑医咨询、AiBrain 所发表内容之知识产权为脑医汇及主办方、原作者等相关权利人所有。

投稿邮箱:NAOYIHUI@163.com 

未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。

最新评论
发表你的评论
发表你的评论