印度孟买戈尔甘Qure.ai公司的Sasank Chilamkurthy等研究应用计算机辅助自动检测颅脑CT扫描的关键性病变的深度学习(deep learning)或机器学习(machine learning)演算法的效能。结果发表在2018年12月《Lancet》杂志上。
——摘自文章章节
【Ref: Chilamkurthy S , et al. Lancet. 2018 Dec 1;392(10162):2388-2396. doi: 10.1016/S0140-6736(18)31645-3. Epub 2018 Oct 11.】
研究背景
颅脑CT平扫是初步诊断颅脑外伤或脑卒中患者的常用工具。CT平扫上可早期发现重要的关键性病变,如脑内血肿、硬膜外血肿、硬膜下血肿、脑室内出血、蛛网膜下腔出血、颅骨头盖骨骨折、中线移位和占位效应等。印度孟买戈尔甘Qure.ai公司的Sasank Chilamkurthy等研究应用计算机辅助自动检测颅脑CT扫描的关键性病变的深度学习(deep learning)或机器学习(machine learning)演算法的效能。结果发表在2018年12月《Lancet》杂志上。
研究方法
作者回顾性收集2011年1月至2017年6月在印度约20家医疗中心内313318例颅脑CT扫描和临床报告的数据集。将数据集中的随机选择部分(Qure25K)用于验证演算法,其余用于开发演算法。另外一个数据集(CQ500)是在不同的医疗中心分两批收集的Qure25K数据集和开发演算法的数据集。将最初的临床放射学报告和三位资深放射医师的阅片结果作为Qure25K和CQ500数据集验证的金标准。绘制受试者工作特性曲线(receiver operating characteristic,ROC),利用ROC曲线下面积(Areas under the ROC curves,AUCs)评估演算法的诊断性能。
CT平扫所发现的关键性损伤主要是脑实质内出血,包括脑挫裂伤出血、脑肿瘤或脑梗死后出血;占位效应,包括局部占位征象、脑室结构消失、中线移位或者脑疝;颅顶骨折指一处以上骨折延伸至头盖骨。
首先采用自然语言处理(natural language processing,NLP)从临床放射学报告中检出的脑实质内、脑室内、硬膜下、硬膜外和蛛网膜下腔出血以及颅骨骨折等数据集。然后,随机选择放射学报告,每次约80例,包括实质内、硬膜下、硬膜外、蛛网膜下腔出血和颅骨骨折。作者在手动标记的Qure25k数据集中,比较随机选择的结果与NLP演算法的结果,推断信息的准确性。
颅脑CT扫描中应用演算法时,生成包含9个真实值的置信评分列表,范围在0-1之间,表明存在以下9个发现:颅内出血和5种出血类型、中线偏移、占位效应和颅骨骨折。在CQ500和Qure25k数据集中,根据检出病变的真阳性率和假阳性率绘制R0C曲线,并计算曲线下面积评估演算法。
研究结果
Qure25k数据集包含颅脑CT扫描的21095例患者,平均年龄43岁,女性9030例(43%);CQ500数据集第一批颅脑CT扫描患者214例,平均年龄43岁,女性94例(44%);第二批277例,平均年龄52岁,女性84例(30%)。在Qure25k数据中,演算法检出颅内出血的AUC为0.92(95% CI,0.91-0.93),其中脑实质内出血AUC为0.90(95% CI,0.89-0.91)、脑室内出血AUC为0.96(95% CI,0.94-0.97)、硬膜下出血AUC为0.92(95% CI,0.90-0.93)、硬膜外出血AUC为0.93(95% CI,0.91-0.95)、蛛网膜下腔出血AUC为0.90(95% CI,0.89-0.92)。在CQ500数据集中,颅内出血的AUC为0.94(95% CI,0.92-0.97),其中脑实质内出血AUC为0.95(95% CI,0.93-0.98)、脑室内出血AUC为0.93(95% CI,0.87-0.1.00)、硬膜下出血AUC为0.95(95% CI,0.91-0.99)、硬膜外出血AUC为0.97(95% CI,0.91-1.00)、蛛网膜下腔出血AUC为0.96(95% CI,0.92-0.99)。Qure25k数据集中,颅骨骨折的AUC为0.92(95% CI,0.91-0.94),中线偏移AUC为0.93(95% CI,0.91-0.94),占位效应AUC为0.86(95% CI,0.85-0.87)。CQ500数据集中,颅骨骨折AUC为0.96(95% CI,0.92-1.00)、中线偏移AUC为0.97(95% CI,0.94-1.00)和占位效应AUC为0.92(95% CI,0.89-0.95)。
在CQ500数据集中,比较演算法与放射科医师的诊断性能。在高灵敏度阈值上,演算法与放射科医师的灵敏度无显著差异(p>0.05),但演算法的特异性明显低(p<0.001)。
结论
作者认为,深度学习演算法可以准确识别颅脑CT扫描的某些关键病变。为放射学报告的质量和一致性提供一个效应界限。该演算法可能有助于进行头颅CT扫描的自动分类。作者指出,该深度学习演算法有利于提高放射科医师的阅片效率,但对其过度依赖,可导致放射科医师对某些假阴性证据的忽略。