
![]()
摘要:目的构建预测伴右向左分流(RLS)患者发生隐源性卒中的最优机器学习模型,并进行可解释性分析。方法回顾性连续纳入2018年1月至2024年12月于青岛大学附属医院崂山院区神经内科因偏头痛、不明原因头晕、卒中等行对比增强经颅多普勒超声(c-TCD)发泡试验并诊断存在RLS的患者。收集患者的一般资料及经胸超声心动图(TTE)检查的各项心脏参数,包括性别、年龄、吸烟史、饮酒史、高血压病、糖尿病、高脂血症、左心房直径(LAd)、左心房短径(LASd)、左心房长径(LALd)、左心室舒张末期内径(LVDd)、左心室收缩末期内径(LVDs)、左心室后壁厚度(LVPW)、室间隔厚度(IVS)、左心室射血分数(LVEF)及肺动脉收缩压(PASP)。根据是否发生隐源性卒中将所有患者分为隐源性卒中组和未发生卒中组,比较两组患者的一般资料及TTE各项心脏参数。基于所有患者的一般资料及TTE检查的各项心脏参数构建预测RLS患者发生隐源性卒中的Logistic回归、决策树、随机森林、极限梯度提升(XGBoost)、梯度提升和极限树6种机器模型。采用重复10次5折交叉验证评估6种机器学习模型的性能并分别绘制受试者工作特征(ROC)曲线,计算平均曲线下面积(AUC)、精确率、召回率、准确率和F1得分。绘制6种机器学习模型的校准曲线评估各模型的预测概率是否接近真实概率,采用决策曲线分析(DCA)评估6种机器学习模型预测RLS患者发生隐源性卒中不同阈值概率区间内可提供的净获益,以确定预测模型的临床价值,阈值范围0~<0.3为低风险区域,0.3~0.6为中等风险区域,>0.6~1.0为高风险区域。以重复10次5折交叉验证中性能最优者(以AUC值为首要指标,AUC相同时优选敏感度最高者)为最优机器学习模型,采用Delong检验比较最优机器学习模型与其他模型间AUC差异。将所有患者按照8∶2的比例随机分层抽样划分为训练集和测试集,基于训练集重新训练最优机器学习模型,并输入测试集中的数据进行Shapley加性解释(SHAP)分析。通过特征重要性柱状图(按平均SHAP值的降序排序)识别预测RLS患者发生隐源性卒中的核心预测因子;采用SHAP散点图分析特征值与模型输出的关联;采用SHAP Force图解析各特征预测单例RLS患者发生隐源性卒中的贡献度。绘制SHAP重要性排名前2位特征的部分依赖图,评估2个特征在RLS患者发生隐源性卒中预测中的边际效应及其非线性趋势,以探索最优机器学习模型量化关键预测因子与隐源性卒中发生风险的关系。结果共纳入310例RLS患者,男181例,女129例,年龄18~70岁,中位年龄52(43,52)岁,其中隐源性卒中组164例,未发生卒中组146例。(1)与未发生卒中组比较,隐源性卒中组患者年龄及男性、高血压病、糖尿病、高脂血症、吸烟史、饮酒史患者比例均更高,且LAd、LASd、LALd、LVDd、LVDs、LVPW、IVS和PASP均更大(均P<0.05);LVEF组间比较差异无统计学意义(P=0.306)。(2)采用重复10次5折交叉验证评估预测RLS患者发生隐源性卒中的6种机器学习模型的ROC,结果显示,极限树模型预测RLS患者发生隐源性卒中的平均AUC最高(0.804),其次为随机森林(0.792)、梯度提升(0.777)、XGBoost(0.776)、Logistic回归(0.764)和决策树(0.717)。(3)校准曲线显示,极限树模型的校准曲线(Brier分数为0.197)更加贴近参考线,其次为随机森林(Brier分数为0.210)、Logistic回归(Brier分数为0.222)、梯度提升(Brier分数为0.244)、决策树(Brier分数为0.263),XGBoost(Brier分数为0.280)最差。DCA显示,在部分中等风险区域(0.3~0.6),极限树模型的DCA曲线展现出较高的净获益率,在部分点表现明显优于其他模型。在高等风险区域(>0.6~1.0)净获益率下降,在低风险区域(0~<0.3)净获益率低且趋近不干预曲线,差异缩小。6种机器学习模型中极限树表现最佳,AUC为0.804,准确率为0.719、F1得分为0.736。Delong检验结果显示,极限树模型与决策树模型的AUC差异有统计学意义(P<0.05),与其他机器学习模型的差异均无统计学意义(均P>0.05)。(4)310例RLS患者中,训练集248例,测试集62例。与测试集比较,训练集RLS患者PASP更高(P=0.037),余训练集与测试集一般资料及TTE各项心脏参数的组间差异均无统计学意义(均P>0.05)。(5)基于训练集重新训练极限树模型,并输入测试集中的数据进行SHAP分析,结果显示,LAd对极限树模型的重要性最大,其次依次为LALd、年龄、LVPW、LVDs、高血压病、LVDd、吸烟史、PASP。SHAP散点图显示,可能增加了RLS患者发生隐源性卒中风险的特征排名前2位为LAd和LALd。(6)极限树模型的Force图显示,当SHAP值为1.0时,患者年龄为68岁,其LAd、LALd、LVDd、IVS、LVDs分别为34、56、48、10、30mm。其中,LALd区域占比最大,LVEF区域占比最小。(7)基于极限树模型特征重要性前2位LAd与LALd生成RLS患者发生隐源性卒中的部分依赖图显示,LAd<32mm时其平均预测概率为0.40,LAd为32~42mm时的平均预测概率从0.35升至0.60,LAd>42mm时的平均预测概率增长趋缓(平均预测概率为0.65);LALd<40mm时平均预测概率稳定在0.40以下,LALd40~55mm时持续升至近0.60,LALd>55mm后增长变缓。结论基于RLS患者一般及TTE心脏参数构建的极限树模型可较为准确地预测RLS患者发生隐源性卒中的风险,其中LAd和LALd是影响极限树模型输出的排名前2位的重要因素,该模型在外部队列中的有效性及其对隐源性卒中发生风险的预测价值转化潜力仍有待进一步明确。
![]()
隐源性卒中是缺血性卒中的一种亚型[1],指在经过详细临床评估和规范影像学评估后未发现可识别病因的缺血性卒中[2],其中结构性心脏异常,如卵圆孔未闭(patent foramen ovale,PFO)是隐源性卒中的潜在原因[3]。右向左分流(right-to-left shunt,RLS)是指左心与右心或体循环与肺循环之间存在潜在的异常通道,当右心系统压力增高时,右心与左心系统之间由于出现压力梯度而产生血液右向左分流[4]。对比增强经颅多普勒超声(contrast-enhanced transcranial Doppler ultrasound,c-TCD)发泡试验对检测分流入左心和颅内动脉的微气泡敏感度较高,已被广泛用于监测RLS[5]。RLS的主要原因为PFO,约5%的缺血性卒中和10%的中青年(18~59岁)卒中由RLS引起[6],多项研究探索了卒中患者左心房大小与缺血性卒中之间的关系,但尚未达成一致结论[7-9]。经胸超声心动图(transthoracic echocardiography, TTE)是可便捷评估多种心脏参数的无创工具,是反映心脏功能的可靠手段[10]。有研究基于临床特征构建RLS患者发生隐源性卒中风险的Logistic回归预测模型以量化风险、辅助分层决策与干预[11],但其未纳入TTE参数且操作并不高效。
机器学习为通过算法从数据中学习模式、实现自主预测与决策的人工智能分支,其在卒中领域中的应用进展迅速,有助于优化卒中诊疗流程[12-13]。开发更精准的RLS患者发生隐源性卒中风险的机器学习预测模型可能有利于对RLS患者进行风险分层,并提升早期预警效能。本研究拟回顾青岛大学附属医院崂山院区神经内科RLS患者的临床资料,探索应用机器学习方法构建RLS患者发生隐源性卒中风险的预测模型并进行可解释性分析。
1 对象与方法
1.1 对象
回顾性连续纳入2018年1月至2024年12月于青岛大学附属医院崂山院区神经内科因偏头痛、不明原因头晕、卒中等行c-TCD发泡试验并诊断存在RLS的患者。本研究方案经青岛大学附属医院医学伦理委员会审核批准(伦理审批号:QYFYWZLL30123)。所有患者或家属签署了诊疗知情同意书。
纳入标准:(1)年龄18~70岁;(2)规范完成c-TCD发泡试验和TTE检查[13],明确存在RLS;(3)病历资料完整。
排除标准:(1)已确诊为大动脉粥样硬化型、心源性栓塞型、小动脉闭塞型及其他明确病因型的脑梗死患者;(2)患有严重感染、自身免疫性疾病、严重心脏疾病、恶性肿瘤晚期或其他疾病终末期患者。
1.2 资料收集
收集患者的一般资料及TTE检查的各项心脏参数,包括性别、年龄、吸烟史、饮酒史、高血压病、糖尿病、高脂血症、左心房直径(left atrial diameter,LAd)、左心房短径(left atrial short diameter, LASd)、左心房长径(left atrial longitudinal diameter,LALd)、左心室舒张末期内径(left ventricular end-diastolic inner diameter,LVDd)、左心室收缩末期内径(left ventricular end-systolic inner diameter,LVDs)、左心室后壁厚度(left ventricular posterior wall thickness,LVPW)、室间隔厚度(interventricular septal thickness, IVS)、左心室射血分数(left ventricular ejection fraction,LVEF)及肺动脉收缩压(pulmon aryartery systolic pressure, PASP)。
本研究中糖尿病定义为空腹血糖≥ 7mmol/L,或目前使用抗糖尿病药物,或自我报告的糖尿病[14]。高血压病定义为收缩压≥140mmHg和(或)舒张压≥ 90mmHg,或目前使用抗高血压药物,或自我报告的高血压病史[15]。高脂血症诊断标准:高密度脂蛋白胆固醇< 1.0mmol/L,低密度脂蛋白胆固醇≥ 3.4mmol/L,三酰甘油≥1.7mmol/L,总胆固醇≥5.2mmol/L,符合以上任何一项即为异常[16]。吸烟史定义为吸烟>1支/d,持续1年以上或戒烟时间少于半年。饮酒史定义为连续半年或累计超过半年每天乙醇摄入量超过30g。
1.3 心脏参数评估
使用Philips EPIQ7C超声诊断仪及S5-1探头进行TTE检查。受检者取左侧卧位,同步连接心电图。所有测量严格遵循美国超声心动图学会指南[17],每个参数于标准切面连续测量3个心动周期并取平均值。具体测量流程如下。(1)胸骨旁左心室长轴切面:于舒张末期、二尖瓣瓣尖水平测量LVDd、IVS和LVPW;于收缩末期、二尖瓣瓣尖水平测量LVSd;于收缩末期、主动脉根部后方测量LAd;(2)心尖四腔心切面:于收缩末期测量LALd和LASd;(3)LVEF采用双平面Simpson法测量[18],于心尖四腔心和心尖二腔心切面,分别在舒张末期和收缩末期描记心内膜轮廓计算得出;(4)PASP通过连续波多普勒测量三尖瓣最大反流速度计算反流压差,并联合剑突下切面评估下腔静脉内径及塌陷率估算右心房压得出。
1.4 分组
根据是否发生隐源性卒中将所有患者分为隐源性卒中组和未发生卒中组。
1.5 机器学习模型构建及性能评估
采用Python(v3.6)语言进行编程,应用scikit-learn(v0.23.2)中的Logistic回归、决策树、随机森林、极限梯度提升(extreme gradient boosting, XGBoost)、梯度提升和极限树6种机器学习算法基于收集的所有患者的一般资料及TTE检查的各项心脏参数构建模型。构建模型的分类变量采用二值化进行数据处理,若存在相应情况,则赋值为1,否则为0。使用scikit-learn(v0.23.2)中的MinMaxScaler函数对收集的一般资料及各项心脏参数行归一化处理(缩放至0~1)后构建预测RLS患者发生隐源性卒中的Logistic回归模型,以消除量纲差异对模型训练的影响;其他对输入数据尺度不敏感的模型则保留原始数据尺度进行模型构建,无需额外归一化。
采用重复10次5折交叉验证[19]评估6种机器学习模型的性能并分别绘制受试者工作特征(receiver operating characteristic, ROC)曲线,计算平均曲线下面积(area under the curve, AUC)、精确率、召回率、准确率和F1得分。其中F1得分为精确率和召回率的调和平均数。绘制6种机器学习模型的校准曲线评估各模型的预测概率是否接近真实概率,采用决策曲线分析(decision curve analysis,DCA)评估6种机器学习模型预测RLS患者发生隐源性卒中在不同阈值概率区间内可提供的净获益,以确定预测模型的临床价值,阈值概率范围0~<0.3为低风险区域;阈值概率范围0.3~0.6为中等风险区域,阈值概率范围>0.6~1.0为高风险区域。以重复10次5折交叉验证中性能最优者(AUC值为首要评估指标,AUC相同时优选敏感度最高者)为最优机器学习模型。
1.6 模型重建与可解释性分析
采用scikit-learn(v0.23.2)中的train_test_split函数,将所有患者按照8∶2的比例随机分层抽样划分为训练集和测试集[20],基于训练集重新训练最优机器学习模型,并输入测试集中的数据进行Shapley加性解释(Shapley additive explanations,SHAP)分析。
采用SHAP(v0.41.0)解释器计算SHAP值以量化各临床特征(一般资料及TTE检查的各项心脏参数)对预测结果的贡献度[21],通过特征重要性柱状图(按平均SHAP值的降序排序),识别预测RLS患者发生隐源性卒中的核心预测因子;采用SHAP散点图分析各特征值与模型输出的关联;采用SHAP Force图解析各特征对预测单例RLS患者的贡献度。
绘制SHAP重要性排名前2位特征的部分依赖图,评估2个特征在RLS患者发生隐源性卒中预测中的边际效应及其非线性趋势,以探索最优机器学习模型量化关键预测因子与隐源性卒中发生风险的关系。
1.7 统计学分析
采用SPSS 27.0软件进行统计学分析。采用Shapiro-Wilk检验对计量资料进行正态性检验,符合正态分布的计量资料以x-±s表示,组间比较采用独立样本t检验;不符合正态分布的计量资料以中位数和四分位数[M(P25,P75)]表示,组间比较采用Mann-Whitney U检验;计数资料以例(%)表示,组间比较采用χ2检验。采用Delong检验比较性能最优的机器学习模型与其他模型AUC的差异。以P<0.05为差异有统计学意义。
2 结果
共纳入1676例行c-TCD发泡试验检查的RLS患者,排除确诊为大动脉粥样硬化型、心源性栓塞型、小动脉闭塞型及其他明确病因型的脑梗死患者1151例,排除患有严重感染、自身免疫性疾病、严重心脏疾病、恶性肿瘤晚期或其他疾病终末期患者215例,最终纳入310例RLS患者,男181例,女129例,年龄18~70岁,中位年龄52(43, 52)岁,其中隐源性卒中组164例,未发生卒中组146例。
2.1 两组一般资料及TTE各项心脏参数比较
与未发生卒中组比较,隐源性卒中组患者年龄及男性、高血压病、糖尿病、高脂血症、吸烟史、饮酒史患者比例均更高,且LAd、LASd、LALd、LVDd、LVDs、LVPW、IVS和PASP均更大(均P< 0.05);LVEF的组间比较差异无统计学意义(P=0.306)。见表1。

2.2 6种机器学习模型预测性能比较
采用重复10次5折交叉验证评估预测RLS患者发生隐源性卒中的6种机器学习模型的平均ROC,结果显示,极限树模型预测RLS患者发生隐源性卒中的平均AUC最高(0.804,95%CI:0.790~0.818),其次为随机森林(0.792,95%CI:0.777~0.807)、 梯度提升(0.777,95%CI:0.762~0.792)、XGBoost(0.776,95%CI:0.762~0.791)、Logistic回归(0.764,95%CI:0.751 ~ 0.776)和决策树(0.717,95%CI:0.701 ~ 0.733)。见图1。

校准曲线显示,极限树模型的校准曲线(Brier分数为0.197)更加贴近参考线,其次为随机森林(Brier分数为0.210)、Logistic回归(Brier分数为0.222)、梯度提升(Brier分数为0.244)、决策树(Brier分数为0.263),XGBoost(Brier分数为0.280)最差。见图2。

DCA显示,在部分中等风险区域(0.3~0.6),极限树模型的DCA曲线展现出较高的净获益率,在部分点表现明显优于其他模型。在高等风险区域(>0.6~1.0)净获益率呈下降趋势,在低风险区域(0~< 0.3)净获益率低,趋近不干预曲线,差异缩小。见图3。

6种机器学习模型预测RLS患者隐源性卒中发生风险的AUC、准确率、精确率、召回率和F1得分见表2。其中极限树模型性能最佳,AUC为0.804,准确率为0.719,F1得分为0.736。Delong检验结果显示,极限树模型与决策树模型的AUC差异有统计学意义(P<0.05),与其他机器学习模型的差异均无统计学意义(均P>0.05)。见表3。


2.3 训练集与测试集一般资料及各项心脏参数比较
结果310例RLS患者中,训练集248例,测试集62例。与测试集比较,训练集RLS患者PASP更高(P=0.037),余一般资料及TTE各项心脏参数的两组间差异均无统计学意义(均P>0.05)。见表4。

2.4 极限树模型在测试集中的SHAP分析结果
基于训练集重新训练极限树模型,并输入测试集中的数据进行SHAP分析,结果显示,LAd对极限树模型的重要性最大,其次依次为LALd、年龄、LVPW、LVDs、高血压病、LVDd、吸烟史、PASP。见图4a。

将纳入极限树模型的特征按照SHAP值平均绝对值降序排列的SHAP散点图显示,LAd、LALd、年龄、LVPW、LVDs、高血压病、LVDd、吸烟史、PASP可能增加了RLS患者发生隐源性卒中的风险,其中排名前2位的特征为LAd和LALd。见图4b。
极限树模型的Force图显示,当SHAP值为1.0时,患者年龄为68岁,其LAd、LALd、LVDd、IVS、LVDs分别为34、56、48、10、30mm。其中,LALd区域占比最大,LVEF区域占比最小。见图4c。
基于极限树模型特征重要性前2位的LAd与LALd生成的RLS患者发生隐源性卒中的部分依赖图显示,LAd<32mm时其平均预测概率为0.40,LAD32~42mm时其平均预测概率从0.35升至0.60,LAD>42mm时其平均预测概率增长趋缓(平均预测概率为0.65),LALd< 40mm时其平均预测概率稳定在0.40以下,LALd40~55mm时其平均预测概率持续升至接近0.60,LALd>55mm后其平均预测概率增长变缓。见图5。

3 讨论
本研究基于310例RLS患者的一般资料及TTE心脏参数构建了6种机器学习模型以预测其隐源性卒中的发生风险,其中极限树模型为最优预测模型,其AUC为0.804,提示应用该极限树模型可较为有效地识别RLS人群中的隐源性卒中高风险个体。极限树模型在校准曲线和DCA中展现出更高的预测可靠性和临床净获益,尤其在中等风险区域(0.3~0.6),其净获益优于其他机器学习模型,提示该模型在预测RLS患者发生隐源性卒中方面具有重要应用潜力。SHAP分析的特征重要性排序显示,LAd、LALd、年龄、LVPW、LVDs、高血压病、LVDd是影响RLS患者发生隐源性卒中的排名前7位的因素,其中,LAd的平均SHAP值绝对值最高,且部分依赖图展示了LAd、LALd与模型预测结果之间的整体“剂量-反应关系”,提示左心房结构重塑可能与RLS相关隐源性卒中存在密切关联,是RLS相关隐源性卒中的重要病理机制之一,与Xue等[22]的研究结果一致,该研究纳入1271例急性缺血性卒中患者分析左心房结构与急性缺血性卒中的关联性,结果显示,左心房扩大(左心房因慢性压力或容量超负荷引发结构性重构,导致尺寸异常增大的病理状态)与发生隐源性卒中相关(OR=1.091,95% CI: 1.010~1.178)。左心房结构改变(如LAd、LALd增大)可能导致心房电生理紊乱和血流瘀滞,增加附壁血栓形成风险[23];同时,左心室结构参数改变(LVDd增大、LVDs增大、LVPW增厚)反映心肌重构可能与心室收缩功能异常相关,从而影响心腔压力梯度,更易发生RLS[24],增加隐源性卒中发生风险,其可能为静脉系统中的栓子经未闭卵圆孔或缺损房间隔移行至脑血管系统所致[21]。此外,高血压病、吸烟等传统脑血管危险因素进一步加剧了动脉内皮损伤和高凝状态,最终导致动脉闭塞性卒中[25]。
预测隐源性卒中发生风险的传统预测模型多基于年龄、高血压病等病史及简单实验室检查指标构建[26],通过单因素或多因素Logistic回归模型评估隐源性卒中发生风险及其预测性能,AUC为0.65~0.72[11,27],仅能捕捉线性关系,难以解析多项临床特征与隐源性卒中的非线性关联及多变量交互作用(如左心房扩大合并高血压病的叠加效应)。机器学习可展示RLS患者各参数与隐源性卒中发生风险的非线性趋势,且无需预设数据分布,可整合多类型变量,更充分利用数据信息[28],本研究极限树模型纳入RLS患者16项特征(含9项TTE心脏参数)预测隐源性卒中发生风险,量化了LAd、LALd等心脏参数在预测隐源性卒中发生风险方面的作用,结果显示,极限树模型在中等风险区域(0.3~0.6)的净获益更高,有利于临床决策。
在机器学习方法学方面,本研究进一步拓展了机器学习在隐源性卒中风险预测方面的应用范围,聚焦RLS患者发生隐源性卒中的一级预防,整合了RLS患者的临床特征及心脏超声相关指标,应用机器学习算法构建风险预测模型,并筛选出最优机器学习算法,有利于精准识别隐源性卒中的高风险人群,且通过SHAP值对模型进行可解释性分析,明确了各特征对预测结果的贡献度,为临床医师理解模型决策逻辑提供了途径。
本研究存在以下局限性:(1)本研究以RLS患者为研究对象,但隐源性卒中病因并非仅RLS,且RLS并非隐源性卒中的病因,因此本研究对象的设定可能限制了对隐源性卒中病因复杂性的全面探究;(2)本研究为单中心回顾性设计,样本来自单中心,可能存在地域和人群选择偏倚及信息偏倚,需在多中心、不同队列中验证模型泛化能力;(3)本研究纳入的TTE参数主要反映心脏的静态结构特征,未涉及动态血流动力学指标(如右心压力变化、分流程度),且心脏超声参数受操作医师技术影响,未来可考虑进行盲法复测或一致性评估,并结合c-TCD的量化分级数据,进一步优化模型性能;(4)本研究仅采用模型中纳入特征的重要性排序,可能遗漏潜在交互作用,需通过更复杂的特征分析工具或纳入分子生物学指标(如凝血因子、炎症标志物)及隐源性卒中其他病史以提升预测精度;(5)本研究仅关注隐源性卒中的发生风险,未涉及卒中后的神经功能预后或卒中复发风险预测,后续研究可拓展至长期预后模型的构建。
本研究通过比较多个机器学习模型的性能,证实了极限树模型在RLS患者隐源性卒中发生风险预测中的可行性和优越性。极限树模型的优异表现及其关键风险因素的识别有利于对RLS相关隐源性卒中病理机制的理解,也为个体化卒中预防策略的制定提供了支持。本研究为单中心回顾性研究,纳入的临床特征和心脏参数有限,未来需在更大范围、更精准的数据层面开展后续研究,推动机器学习从回顾性分析向实时临床决策工具的转化。随着医疗大数据和人工智能技术的发展,未来结合动态血流动力学指标、基因信息和生活方式数据的多模态人工智能模型,有望进一步提升RLS患者隐源性卒中发生风险的预测效能,为RLS患者的精准医疗开辟新路径。
4 结论
本研究结果显示,基于RLS患者一般资料及心脏参数构建的极限树模型可较为准确地预测伴RLS患者发生隐源性卒中的风险,有望成为隐源性卒中诊断和治疗的辅助工具,其中LAd和LALd是影响极限树模型输出的排名前2位的重要因素,其在外部队列中的有效性及其对隐源性卒中发生风险的预测价值转化潜力仍有待明确。
*本文转载自微信公众号“中国脑血管病杂志”,脑医汇获授权转载
声明:脑医汇旗下神外资讯、神介资讯、脑医咨询、Ai Brain 所发表内容之知识产权为脑医汇及主办方、原作者等相关权利人所有。
投稿邮箱:NAOYIHUI@163.com
未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。
投稿/会议发布,请联系400-888-2526转3。





