【论著】基于 Transformer生成对抗网络模型生成的虚拟 CT图像对自发性脑出血后早期血肿的预测研究

分享至

2026年04月21日发布 | 33阅读

胡晨曦

浙江中医药大学第四临床医学院

冯长锋

杭州市第一人民医院

孔帅航

浙江中医药大学第四临床医学院

叶子怡

浙江中医药大学第四临床医学院

胡美萍

浙江中医药大学第四临床医学院

楼智骞

浙江中医药大学第四临床医学院

沈起钧

杭州市第一人民医院

郗玉珍

联勤保障部队第903医院

中国脑血管病杂志

关注

达人收藏

摘要:目的探讨基于Transformer生成对抗网络(TransGAN)模型生成的虚拟CT图像对自发性脑出血(sICH)后早期血肿的预测价值｡方法回顾性连续纳入2017年1月至 2024年5月于杭州市第一人民医院放射科(中心1)和联勤保障部队第九〇三医院放射科(中心2)行头部影像学检查的sICH患者｡以中心1患者为训练集,中心2患者为测试集｡收集所有患者人口学基线资料(年龄､性别)及影像学资料[发病后首次头部CT(基线CT)及其后24h内复查的头部CT影像]｡对所有患者头部CT图像行标准化处理,通过仿射配准将基线CT平扫图像与首次头部CT后 24h内复查CT平扫图像对齐至同一空间,作为模型训练的成对数据｡对训练集患者CT图像行成对同步数据扩增,包括随机旋转､缩放及灰度变换,通过设置超参数与终止条件训练TransGAN､自编码卷积神经网络(AutoCNN)､条件生成对抗网络(cGAN)模型,将训练过的模型权重加载至测试集,生成虚拟CT图像｡比较3种模型生成的虚拟图像的定量和主观评价指标｡以峰值信噪比(PSNR)和结构相似性指数(SSIM)为定量评价指标,PSNR为信号最大可能功率与影响其表示精度的破坏性噪声功率的比率,PSNR越高表示生成的虚拟图像与真实图像的像素级差异越小,图像重建质量越好;SSIM可基于亮度､对比度和结构特征衡量图像间的相似性,SSIM越大表示生成的虚拟图像与真实图像在视觉结构上越接近｡由2名具有10年及以上工作经验的神经影像学主治医师采用Likert量表对测试集3种模型生成的虚拟图像与真实复查图像进行对比,从血肿成像质量､水肿成像质量及脑实质背景质量3个维度对3种模型生成的虚拟图像进行主观评价,虚拟图像与真实复查图像高度相似,血肿､水肿细节精准,脑实质结构自然清晰为5分;虚拟图像具有明确参考价值,血肿与水肿边界清晰,脑实质结构清楚为4分;虚拟图像具备基本参考价值,血肿与水肿形态大致可辨,脑实质结构可见为3分;虚拟图像参考价值有限,血肿与水肿边界模糊,脑实质结构难以辨认为 2分;虚拟图像几乎无参考价值,各结构严重失真,无法用于评估为1分｡采用加权 Kappa系数评估 Likert量表评分者间一致性｡结果共纳入sICH患者 311例,其中男166例,女145例,年龄43~95岁,中位年龄62(53,72)岁｡训练集213例,测试集98例｡(1)训练集患者年龄较测试集更高(P=0.021),两数据集性别差异无统计学意义(P=0.851)｡(2)测试集 TransGAN､AutoCNN､cGAN模型生成的虚拟图像 PSNR分别为(26.73±1.11)､(22.56±1.53)､(23.54±1.41)dB,3种模型比较差异有统计学意义(F=251.343,P<0.01);且 TransGAN模型生成的虚拟图像 PSNR均高于其他两种模型(均 P<0.01),cGAN模型生成的虚拟图像 PSNR高于 AutoCNN模型(P<0.01);测试集 TransGAN､AutoCNN､cGAN模型生成的虚拟图像 SSIM分别为(91.23±1.10)%､(86.78±1.48)%､(89.32±1.25)%,3种模型比较差异有统计学意义(F=295.232,P<0.01),且 TransGAN模型生成的虚拟图像 SSIM均高于其他两种模型(均P<0.01),cGAN模型生成的虚拟图像 SSIM高于 AutoCNN模型(P<0.01)｡(3)一致性分析结果显示,2名医师对各模型生成的虚拟图像的Likert量表评分加权 Kappa值均≥0.81(TransGAN为0.89,AutoCNN为 0.92,cGAN为 0.82),观察者间一致性极佳｡测试集 AutoCNN､TransGAN､cGAN模型生成的虚拟图像Likert量表评分分别为 3.0(2.0,4.0)､4.0(3.0,5.0)､3.0(2.0,3.0)分,3组比较差异有统计学意义(χ2 =251.800,P<0.01),且 TransGAN生成的虚拟图像 Likert量表评分均高于其他两种模型(均 P<0.01),AutoCNN模型生成的虚拟图像 Likert量表评分高于 cGAN模型(P<0.01)｡结论TransGAN模型生成的 sICH早期血肿虚拟复查图像或可为预测 sICH早期脑内结构变化提供影像学参考｡

自发性脑出血(spontaneous intracerebral hemorrhage,sICH)是由高血压病或脑淀粉样血管病等引起的非外伤性脑内出血,发病首月病死率为30%~40%[1-2]｡目前 sICH相关的智能化研究主要为应用影像组学､深度学习等技术[3-7]量化初始血肿体积[3]､周围水肿[4]或基于基线 CT图像预测早期血肿扩大发生率[5-7],但尚无法全面可视化预测血肿变化及邻近脑结构改变情况｡

近年来,生成式深度学习在医学影像重建､跨模态转换､图像质量提升和时序结构预测等方面广泛应用[8-9]｡基于自编码器结构的神经网络[如自编码卷积神经网络 (auto-encoding convolutional neural network, AutoCNN)]是由编码器和解码器组成的无监督学习模型,目前已广泛用于高质量图像生成任务,如基于低分辨率 MRI生成高分辨率MRI等[10]｡生成对抗网络 (generative adversarial networks, GAN)是由生成器和判别器组成的深度学习模型,其为生成与真实目标图像高度相近的医学虚拟图像提供了新的技术路径[11],其中条件 GAN (conditional GAN, cGAN)可利用配对数据直接学习从输入图像至目标图像的映射关系,在 MRI图像生成正电子发射体层摄影(PET)图像､低剂量 CT图像生成常规剂量 CT图像等任务中广泛应用[12-15]｡基于自注意力机制的 GAN模型[如 TransformerGAN (TransGAN)]可捕获长程空间依赖关系,目前已在多器官虚拟 CT图像生成等方面取得优于 cGAN的效果[16-17]｡

本研究拟基于 sICH患者发病后首次头部 CT(基线 CT)图像及其后 24h复查的头部 CT图像构建 TransGAN 模型,生成虚拟图像,并与AutoCNN､cGAN模型生成的虚拟图像进行对比,以探讨 TransGAN模型生成的虚拟图像预测 sICH后血肿的价值｡

1 对象与方法

1.1 对象

回顾性连续纳入 2017年 1月至 2024年5月于杭州市第一人民医院放射科(中心1)和联勤保障部队第九〇三医院放射科(中心2)行头部影像学检查的 sICH患者｡以中心1患者为训练集,中心2患者为测试集｡本研究方案经杭州市第一人民医院及联勤保障部队第九〇三医院医学伦理委员会审核批准 (伦理审批号:2025KY003-1､20240805/22/01/001)｡所有患者或家属签署了诊疗知情同意书｡

纳入标准:(1)依据 2022年美国心脏协会/美国卒中协会sICH管理指南[18]并经头部CT检查确诊为sICH;(2)发病后首次头部CT检查(基线CT)后24h内未行手术治疗;(3)影像学图像清晰,无伪影干扰｡

排除标准:(1)肿瘤､血管畸形或外伤引起的脑出血;(2)既往存在脑血管意外或颅脑外伤史;(3)基线CT检查后头部CT复查时间超过24h｡

1.2 资料收集

收集患者人口学基线资料(年龄､性别)及影像学资料(基线 CT及其后 24h内复查的头部CT图像)｡

1.3 头部CT图像采集与感兴趣区勾画

所有患者采用美国 GE公司 LightSpeed VCT 64层 CT或 Optima540 16层 CT扫描仪完成头部CT检查｡扫描参数相同,管电压 120kV,管电流150~300mAs,视野 25cm,矩阵 512×512｡扫描范围从颅底至颅骨,层厚 5mm｡

采用统一窗位(35HU)和窗宽(90HU)从影像存储和传输系统中导出基线 CT图像,导入 ITK-SNAP软件(3.6.0-Upenn版本)中｡由 1名具有12年工作经验的神经放射科副主任医师逐层手动勾画所有患者基线 CT及其后 24h内复查的头部 CT图像血肿区域并重建生成三维感兴趣区,由另1名具有21年工作经验的神经放射科主任医师进行复核｡以二者讨论并达成一致的三维血肿感兴趣区作为“金标准”进行模型训练｡

1.4 模型构建与测试

1.4.1 图像标准化预处理:对所有患者头部 CT图像行标准化处理,采用 MATLAB软件(R2023b版本)通过阈值分割法去除颅骨,提取脑组织影像;通过仿射配准将基线CT平扫图像与24h内复查CT平扫图像对齐至同一空间,作为模型训练的成对数据｡在此基础上,对训练集实施成对同步数据扩增,包括随机旋转､缩放及灰度变换｡

1.4.2 TransGAN模型构建与测试:在训练集中,通过设置超参数与终止条件训练 TransGAN模型,将训练过的模型权重加载至测试集,生成基线 CT后 24h内虚拟复查 CT图像｡

采用 Python3.8及 PyTorch1.10搭建融合Transformer模块的 GAN框架,应用残差学习策略,基于基线 CT图像生成虚拟复查图像｡Transformer编码器共包含 4个模块,其中第 1个模块(嵌入模块)由 1个补丁分割层和 1个线性输入层组成,第2､3､4个模块(Transformer编码器块)分别为 2个连续的注意力模块和 1个补丁合并模块,上述模块可依次降低输入图像的分辨率并使其通道维度加倍,共同产生分层表示[19]｡瓶颈层由 1个 T1模块及其后的扩展补丁层共同构成,连接编码器和解码器｡Transformer解码器用于预测基线 CT图像及其后24h内复查头部 CT图像间的残差(即两期影像之间解剖与病理改变的差异图),其包含 3个级联模块,每个级联模块均由 1个注意力模块和 1个补丁扩展层组成,可依次提高编码器提取到的图像特征分辨率,并将特征通道维度减半,从而产生与编码器相对应的分层表示,最后 1个模块的输出被传递至线性层以获得预测的残差[20]｡输入图像与残差图像相加为最终生成的虚拟图像｡为提升生成图像的真实度与细节纹理,采用 GAN 框架引入基于Transformer架构的判别器系统[16]｡将输入的图像(即生成的虚拟复查图像､真实复查图像)分割为非重叠补丁并映射为序列向量,通过多层 Transformer模块捕获图像的全局上下文依赖关系[16]｡判别器系统最终输出层为 1个分类头,用于计算输入图像为“真实”或“伪造”的概率分数[16]｡在训练过程中,判别器可将区分真伪图像的能力最大化,而生成器则试图将被判别器识别为“伪造”的概率最小化,二者通过极小极大博弈不断优化,最终促使模型生成具有高保真度的解剖结构及病变特征[16]｡TransGAN模型构建流程示意图见图 1｡

1.4.3 AutoCNN､cGAN模型构建与测试:在训练集中,通过设置与 TransGAN模型相同的超参数与终止条件训练 AutoCNN､cGAN模型,将训练过的模型权重加载至测试集,生成虚拟图像｡

AutoCNN为基于纯卷积架构的基础生成模型,其为编码器-解码器结构,但不包含任何注意力模块或复杂残差跳跃连接[21]｡编码器部分由连续的卷积层组成,负责从输入基线 CT图像中提取低级(如边缘､纹理)至高级(如解剖结构语义)的影像学特征并逐步降低分辨率;解码器部分则通过对应的上采样层将特征图还原至原始图像尺寸,最终输出虚拟图像[21]｡在训练过程中,AutoCNN依赖像素级的损失函数均方误差将生成图像与真实目标图像间的体素差异最小化,但并未引入对抗性训练机制[21]｡

cGAN为经典的基于卷积架构的生成对抗框架,其引入博弈对抗机制使目标虚拟图像生成过程受输入图像的条件约束[12]｡cGAN由 1个生成器和1个鉴别器组成,生成器采用标准的 U-Net结构(包含对称的编码器-解码器路径及连接二者的跳跃连接),负责接收基线 CT图像作为条件输入,并生成尽可能逼真的虚拟复查图像;鉴别器则为基于卷积的四层分类网络,采用 PatchGAN结构(即输出二维矩阵,矩阵中每个元素对应输入图像局部区域的真伪值),其接收成对的图像作为输入(即基线 CT图像 +真实 24h内复查 CT图像作为正样本,基线CT+生成器生成的虚拟图像作为负样本),并最终判断输入的配对图像是否真实[12]｡在训练过程中,cGAN通过联合优化对抗性损失和像素级 L1损失进行构建,前者促使生成图像在纹理上更逼真以“欺骗”鉴别器,后者确保生成图像在解剖结构上与目标图像保持一致[12]｡

1.5 图像评估与比较

将测试集 TransGAN模型生成的虚拟图像与AutoCNN､cGAN模型生成的虚拟图像进行定量和主观评价对比｡

采用峰值信噪比 (peak signal-to-noise ratio, PSNR)和结构相似性指数(structural similarity index measure, SSIM)定量评估不同深度学习模型生成的虚拟图像的质量｡PSNR为信号最大可能功率与影响其表示精度的破坏性噪声功率的比率,此处信号代表原始图像,噪声指生成的虚拟图像与真实数据的均方误差,PSNR数值越大,表示生成的虚拟图像与真实图像的像素级差异越小,图像重建质量越好[22]｡SSIM为基于亮度､对比度和结构特征衡量的图像间相似性,SSIM数值越大(越接近 100%)表示生成的虚拟图像与真实图像在视觉结构上越接近,生成的虚拟图像的真实度越高[23]｡

图像质量主观评价由 2名具有10年及以上工作经验的神经影像学主治医师在盲法条件下完成,如有分歧则由第3名具有20年及以上工作经验的神经影像学主任医师确定最终结果｡图像质量主观评价采用Likert量表评分法[24],从以下 3个维度对生成的虚拟 CT图像进行综合评估: (1)血肿评估,主要包括血肿边界清晰度､血肿内部密度特征呈现的准确性､血肿形态和范围显示准确性及对周围脑实质受压情况呈现准确性;(2)水肿成像质量,包括范围准确性､边缘自然性及是否存在信号缺失;(3)脑实质背景质量,包括脑实质密度､纹理连续性及观察的整体噪声水平｡生成的虚拟图像与真实图像高度相似,血肿､水肿细节精准,脑实质结构自然清晰为5分;虚拟图像具有明确参考价值,血肿与水肿边界清晰,脑实质结构清楚为4分;虚拟图像具备基本参考价值,血肿与水肿形态大致可辨,脑实质结构可见为3分;虚拟图像参考价值有限,血肿与水肿边界模糊,脑实质结构难以辨认为2分;虚拟图像几乎无参考价值,各结构严重失真,无法用于可靠评估为1分｡

1.6 统计学分析

应用 MedCalc20.0.3软件对数据进行统计学分析｡采用 Kolmogorov-Smirnov法检验计量资料的正态性,符合正态分布的计量资料以 x- ±s表示,三组间比较采用重复测量方差分析,两组间比较采用配对样本 t检验;不符合正态分布的计量资料以中位数和四分位数[M(P25,P75)]表示,三组间比较采用 Friedman检验,两组间比较采用 Wilcoxon秩和检验｡计数资料以例(%)表示,三组及两组间比较均采用 χ2 检验｡三组间比较差异有统计学意义的变量行两两比较,并采用 Bonferroni校正｡采用加权Kappa系数评估 Likert量表评分者间一致性,Kappa值 <0为无一致性,0~0.20为轻度一致性,0.21~0.40为一致性一般,0.41~0.60为中度一致性,0.61~0.80为一致性较好,0.81~1.00为一致性极佳[25]｡以 P<0.05为差异有统计学意义｡

2 结果

共纳入sICH患者311例,男166例,女145例,年龄43~95岁,中位年龄62(53,72)岁｡训练集213例,测试集98例｡训练集患者年龄较测试集更高(P=0.021),性别的组间差异无统计学意义(P=0.851)｡见表1｡

测试集 TransGAN､AutoCNN､cGAN模型生成的虚拟图像的 PSNR分别为(26.73±1.11)､(22.56±1.53)､(23.54±1.41)dB,3种模型比较差异有统计学意义(P<0.01),且 TransGAN模型生成的虚拟图像的PSNR均高于其他两种模型(均 P<0.01),cGAN模型生成的虚拟图像的 PSNR高于 AutoCNN模型(P<0.01)｡测试集 TransGAN､AutoCNN､cGAN模型生成的虚拟图像的 SSIM分别为(91.23±1.10)%､(86.78±1.48)%､(89.32±1.25)%,3种模型比较差异有统计学意义(P<0.01),且 TransGAN模型生成的虚拟图像的 SSIM均高于其他两种模型(均 P<0.01),cGAN模型生成的虚拟图像的 SSIM 高于AutoCNN模型(P<0.01)｡见表 2,图 2｡

一致性分析结果显示,2名神经影像学医师对各模型生成的虚拟图像的 Likert量表评分加权 Kappa值均≥0.81 (TransGAN为 0.89,AutoCNN为 0.92, cGAN为 0.82),观察者间一致性极佳｡测试集AutoCNN､TransGAN､cGAN模型生成的虚拟图像的Likert量表评分分别为 3.0(2.0,4.0)､4.0(3.0,5.0)､3.0(2.0,3.0)分,3组比较差异有统计学意义(P<0.01),且 TransGAN模型生成的虚拟图像的 Likert量表评分均高于其他两种模型 (均 P<0.01),AutoCNN模型生成的虚拟图像 Likert量表评分高于cGAN模型(P<0.01)｡见表 2,图 3､4｡

3 讨论

近年来,生成式深度学习逐渐成为医学影像学重建和跨模态转换的重要技术方向｡AutoCNN可依靠编码-解码结构实现无监督特征学习,并用于低剂量 CT去噪和 MRI重建[26-27],但其受限于卷积操作的局部感受野,难以捕获复杂影像的全局结构[28]｡cGAN引入结构或模态条件以实现更具解剖一致性的图像至图像映射,有利于改善生成图像的细节与临床价值,其已在 MRI-PET转换和低剂量 CT图像质量提升中广泛应用[14-15]｡Jiang等[29]基于 139例急性缺血性卒中患者机械取栓术后 24h内的 200组头部双能 CT数据(包括 120kvp混合能量图像､虚拟去增强图像和碘覆盖图像)构建 TransGAN模型,并通过 27例同类术后患者(测试集)的 30组真实头部单能 CT数据(包括术后 24h内头部单能 CT及术后 2~3d复查的头部单能 CT或头部 MRI)进行测试,结果显示,TransGAN模型生成的虚拟去增强图像和碘覆盖图像的 PSNR分别为 28.54､24.67dB,SSIM分别为 93.22%､87.65%,对测试集真实单能CT上的术后颅内高密度影鉴别准确率达 90.0%,表明 TransGAN模型对长程空间依赖关系的提升可能有利于提高跨区域结构(如颅内高密度影与周围脑组织)的图像生成质量｡

本研究中 TransGAN模型生成的虚拟图像在PSNR､SSIM方面均优于 AutoCNN､cGAN模型｡这一优势的核心可能为 Transformer架构可协同优化生成虚拟图像的全局结构与局部细节｡结构层面上,TransGAN模型底层的全局自注意力机制打破了传统卷积的局部感受野限制[16],可有效捕捉中线位移､脑室对称性等长程空间依赖关系,从而生成结构更协调､轮廓更准确的头部影像学图像[30];细节层面上,TransGAN模型在高分辨率生成阶段引入网格自注意力[16],该模块将特征图划分为局部网格,在降低计算复杂度的同时精细刻画了血肿边缘的形态异质性及病灶周围水肿的微细纹理,使生成的虚拟图像具备更丰富的细节和更低的像素级失真[16],进而提升 PSNR｡此外,TransGAN模型的多尺度判别器结构可同时接收不同尺寸的图像块输入,从而驱动生成器协同优化全局语义结构的正确性与局部纹理的真实性[16];Transformer本身缺乏卷积网络的归纳偏置[31],因此 TransGAN对数据增强策略的依赖更强,模型可通过增强数据学习到更鲁棒的特征表示,进一步提升生成结果的稳定性和泛化能力[32]｡上述多维度的协同设计可能使 TransGAN有效克服卷积神经网络在复杂病灶演变预测中的归纳偏置局限,系统性提升生成图像的感知质量与像素精度｡

本研究中的主观评价指标与客观图像质量指标形成了重要互补｡PSNR与 SSIM可客观反映像素层面的重建误差和结构相似度,但其对轻微的位移､局部变形或伪影表现并不敏感[33],也无法评估图像的临床适用性｡模型生成虚拟图像中的血肿边界是否平滑､病灶是否失真､脑实质纹理是否自然等难以通过单纯数值指标准确衡量｡主观评价可直接反映神经放射学医师对图像真实性､结构完整性及可读性的整体感知,贴近临床实际判读过程｡本研究中由 2名神经影像学医师对生成的虚拟图像进行盲法 Likert量表评分,结果显示,TransGAN模型生成的虚拟图像中位评分高于 AutoCNN､cGAN模型[4.0(3.0,5.0)分比 3.0(2.0,4.0)､3.0(2.0,3.0)分,P<0.01],其与真实图像相似度较 AutoCNN､cGAN模型更高,血肿内部异质性(如点状低密度区)更清晰(图 4)｡提示与其他 2种模型相比,TransGAN模型可生成结构连贯､纹理自然､伪影较少的虚拟图像,在临床可读性方面更具优势｡这可能是由于Transformer通过全局注意力机制强化了模型对长程空间依赖关系的建模能力,可更好地保持脑结构的完整性及血肿变化的空间连续性,使 TransGAN在生成虚拟病灶形态､保持组织边界清晰度和减少伪影方面表现更为突出｡

本研究存在一定局限性:(1)回顾性分析纳入的样本量有限,可能影响模型的泛化能力;(2)用于训练深度学习模型的数据集参数可能存在一定的偏倚,模型的鲁棒性和有效性需进一步检验｡

综上所述,基于 sICH患者基线 CT和随后24h内复查 CT图像训练的 TransGAN模型可生成较AutoCNN､cGAN模型质量更高､结构更精确的虚拟图像,可一定程度预测血肿形态及周围邻近结构改变,或可为 sICH血肿进展可视化提供参考｡

*本文转载自微信公众号“中国脑血管病杂志”，脑医汇获授权转载

声明：脑医汇旗下神外资讯、神介资讯、脑医咨询、Ai Brain 所发表内容之知识产权为脑医汇及主办方、原作者等相关权利人所有。

投稿邮箱：NAOYIHUI@163.com

未经许可，禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用，亦须注明来源。欢迎转发、分享。

投稿/会议发布，请联系400-888-2526转3。

分享至: