【中国声音】颅内肿瘤手术患者非计划再手术风险的可解释性预测模型的开发与验证

摘　要

背景：脑及中枢神经系统恶性肿瘤是全球医疗系统的重大负担，而初次手术后非计划再手术是影响患者临床预后的关键事件。目前针对此类再手术的预测工具在综合多维度临床数据进行准确风险评估方面仍存在局限。本研究旨在开发并验证一种可解释的机器学习算法，用于预测颅内肿瘤手术患者发生非计划再手术的风险。

方法：我们收集了2023年1月至2024年1月期间于西安交通大学第一附属医院收治的颅内肿瘤手术患者的数据。患者按7:3的比例进一步划分为训练队列与验证队列。我们采用LASSO回归有效筛选与术后非计划再手术相关的特征变量。应用五种机器学习模型预测术后非计划再手术。通过受试者工作特征曲线下面积（AUC）等评价指标比较这些模型的预测性能。此外，采用SHAP方法对特征重要性进行排序并解释最终模型。

结果：最终筛选出11个独立关键变量用于构建模型。在五种机器学习模型中，逻辑回归（LR）模型表现出最佳性能。该模型能有效预测颅内肿瘤手术患者的非计划再手术风险，在训练集（AUC：0.836，95%CI：0.806–0.863）和内部测试集（AUC：0.769，95%CI：0.652–0.814）中均取得了良好结果。校准曲线与Brier评分表明，内部测试集中预测风险与实际观察风险高度吻合。SHAP分析确定手术时长、肿瘤位置、改良衰弱指数-5以及肿瘤类型为最重要的预测因素。为支持该机器学习模型在临床环境因素中的实际应用，我们开发了一个便于访问的基于网络的应用程序（https://unplanned-reoperation-risk-predicting.streamlit.app/）。

结论：我们开发并内部验证了一个可解释的机器学习模型，用于预测颅内肿瘤手术患者的非计划再手术风险。在此单中心队列中，该模型显示出辅助医疗专业人员早期识别高风险患者的潜力，从而为探索针对患者个体需求的个性化治疗策略提供了潜在依据。

关键词：颅内肿瘤手术；非计划再手术；机器学习模型；预测模型；SHAP；网络应用程序

背　景

中枢神经系统肿瘤是全球范围内致死和致残的重要原因。2016年全球新发病例约33万，死亡22.7万例；1990至2016年间，年龄标化发病率上升了17.3%。其中胶质瘤是最常见的组织学类型，胶质母细胞瘤作为恶性度最高的亚型，即使接受积极治疗，患者生存期通常也不足两年。针对可切除的实体肿瘤，手术是初始治疗的核心。然而术后30天内非计划再手术是评估手术质量的关键指标，其发生率在2.6%至17.0%之间。常见原因包括术后出血、感染、脑积水、脑脊液漏、肿瘤残留或进展等。再手术不仅损害短期恢复，还可能因手术应激削弱免疫功能，影响远期预后。

机器学习技术有望整合患者人口学特征、手术方式及合并症等多维数据，提升非计划再手术的风险预测精度。本研究旨在开发并验证此类预测模型，辅助临床医生进行个体化风险分层与治疗决策，从而降低非计划再干预的发生率，改善患者生存质量并减轻医疗系统负担。

材料与方法

研究队列：本研究回顾性收集了2023年1月至2024年1月期间于西安交通大学第一附属医院收治的中枢神经系统肿瘤患者的临床数据。

纳入与排除标准：

● 纳入标准：（1）年龄≥18岁；（2）接受颅内肿瘤手术并完成全部手术过程的患者；（3）经病理诊断确诊为肿瘤的患者；（4）病历资料完整的患者。

● 排除标准：（1）再次手术原因与初次手术无关的患者（例如，肺栓塞、压疮、肠梗阻）；（2）计划性再次手术的患者（例如，化学治疗、二次辅助治疗）；（3）初次手术仅为辅助检查操作的患者（例如，穿刺活检、引流术）；（4）合并其他严重疾病的患者；（5）急诊手术患者。

样本筛选：回顾性纳入了2023年1月至2024年1月期间在西安交通大学第一附属医院接受颅内肿瘤手术的825例患者队列。应用纳入与排除标准后，258例患者被排除分析，最终获得567例符合条件的研究人群。在该队列中，49例患者（8.64%）在术后期间发生了非计划性再次手术。为进行模型验证，将567例患者按照7:3的比例分层划分为训练数据集和验证数据集。患者筛选流程与研究设计的示意图见图1。

Fig. 1: Flow chart of the study design. CV: cross-validation; LR: logistic regression; RF: random forest; SVM: support vector machine; XGBoost: extreme gradient boosting; LightGBM: light gradient boosting machine; ROC: receiver operating characteristic; AUC: area under curve; SHAP: SHapley Additive explanation.

临床数据收集：从电子病历中收集了所有患者的全面临床信息，包括人口统计学特征（如年龄和性别）、人体测量学指标（如体重指数[BMI]）以及病史（包括高血压、糖尿病、慢性阻塞性肺疾病[COPD]和充血性心力衰竭[CHF]）。我们还记录了生活方式因素（如吸烟史）、采用美国麻醉医师协会（ASA）分级进行的麻醉相关风险评估，以及通过改良衰弱指数-5（mFI-5）评分进行的衰弱评估。此外，我们获取了肿瘤特异性数据，包括病理学分类、影像学发现（如肿瘤位置和体积）、手术参数（特别是手术时长）、术后结局、住院时长以及长期预后。

结局变量定义：非计划再手术定义为首次开颅手术后30天内任何非计划性重返手术室。

结　果

基线临床资料

在567例接受颅内肿瘤手术的患者中，49例（8.64%）发生了非计划再手术，其中25例为术后脑出血，10例为术后颅内感染，10例为术后脑积水，2例为脑脊液漏，2例为脑水肿。所有纳入患者的基线人口学及临床病理学特征详见表1。对于大多数变量，训练集与测试集之间的数据分布未显示出统计学显著差异，多数情况下P值大于0.05。然而，在比较未发生非计划再手术（UR0）队列与发生非计划再手术（UR1）队列时，观察到若干临床病理学特征存在显著差异。例如，UR1患者更可能具有以下特征：肿瘤为恶性（49% vs. 33.6%）、合并高血压（46.9% vs. 26.3%）、合并糖尿病（34.7% vs. 10.0%）、功能状态依赖（10.2% vs. 1.9%）、入住重症监护病房（ICU）的比例更高（38.8% vs. 15.8%）、手术时间更长（≥4小时：61.2% vs. 40.0%）、美国麻醉医师协会（ASA）分级更高（≥3级：38.8% vs. 20.3%），以及改良衰弱指数-5（mFI-5）评分更高，上述各项比较的P值均小于0.001。研究设计详情见图1。

Table 1: Comparison of demographic characteristics and clinical characteristics between UR1 and UR0 patients, and between training and test sets.

Abbreviation：ASA score (American Society of Anesthesiologists score); NICU (Neurosurgical Intensive Care Unit); COPD (chronic obstructive pulmonary disease); CHF (congestive heart failure); mFI-5 (Modified frailty Index-5).

筛选非计划再手术特征变量

本研究采用LASSO回归进行非计划再手术特征变量的筛选，并应用10折交叉验证以确定最优λ值为0.007（图2）。基于此最优λ值，最终筛选出11个独立变量，包括：重症监护病房（NICU）入院史、糖尿病、美国麻醉医师协会（ASA）评分、改良衰弱指数-5（mFI-5）评分、手术时长、性别、肿瘤良恶性、肿瘤位置、充血性心力衰竭（CHF）、肿瘤类型以及功能依赖状态。

Fig. 2 Selection of clinical features through the Lasso regression model. (A) Comparison of the partial likelihood deviance (binomial deviance) curve with log(lambda).The dashed vertical lines represent the optimal predictors using the minimum criteria (min. criteria) and one standard error of the minimum criteria (Ise criteria). (B) Lasso coefficients for a total of 11 clinical features. The dynamic process chart of Lasso variable selection.

模型构建与性能比较

● 训练集结果：在训练集中，逻辑回归（LR）模型表现最优，AUC为0.836（95%CI：0.806–0.863），Brier评分为0.079，校准良好（Hosmer‑Lemeshow检验P>0.05）。其准确度（0.914）、灵敏度（0.783）、特异度（0.797）及F1分数（0.865）均较高。DeLong检验证实LR的AUC显著优于其他模型（P<0.05）；决策曲线分析（DCA）显示在0–0.4阈值范围内净获益最佳。

● 验证集结果与模型推荐：在内部验证集中，LR模型同样取得最高预测性能（AUC=0.769，95%CI：0.652–0.814；Brier评分=0.081），校准良好，且DCA在0–0.5阈值范围内净获益最优。所有预测变量的方差膨胀因子均低于5，无显著多重共线性。综上，推荐将LR模型作为预测非计划再手术风险的主要模型，随机森林模型可作为次要选择。

Fig. 3 Performance of machine learning (ML) models predicting unplanned reoperation probability in patients underwent intracranial tumor surgery in the training and test sets. ROC curve analysis (A, B), calibration curve analysis (C, D), and DCA curves for each model (E, F) predicting unplanned reoperation probability in patients underwent intracranial tumor surgery using five ML algorithms in the training and test sets. Abbreviations: LR: logistic regression; RF: random forest; SVM: support vector machine; XGBoost: extreme gradient boosting; LightGBM: light gradient boosting machine.

模型解释

本研究采用SHAP方法对逻辑回归模型进行解释。结果显示，手术时间是预测非计划再手术风险的最重要特征，其后依次为肿瘤位置、改良衰弱指数-5（mFI-5）、肿瘤类型、性别、是否入住神经重症监护室（NICU）、ASA评分、糖尿病及充血性心力衰竭。更长的手术时间、轴内及小脑幕上肿瘤、更高的mFI-5评分、恶性肿瘤、术后入住NICU、更高的ASA评分、糖尿病及女性性别均与更高的SHAP值相关，提示模型预测的非计划再手术概率升高。

Fig. 4 Global model explanation using the SHAP method within the internal validation set. (A) SHAP summary bar plot. (B) SHAP summary dot plot. (C) SHAP scatter plots.

个体层面机器学习模型的解释

为阐明针对患者的个性化结局预测，我们从内部验证队列中随机选取了两例代表性病例进行局部模型解释（图5）。第一例为患者A，一位67岁男性，未经历非计划再手术。根据机器学习模型的评估，该患者被预测有1.22%的可能性接受非计划再手术。较短的手术时长、较低的改良衰弱指数5分（mFI-5）、良性肿瘤、未入住神经重症监护室（NICU）以及男性性别，共同降低了该病例的非计划再手术风险（图5A和C）。患者B，一位69岁女性，经历了非计划再手术，其预测的非计划再手术风险为93.54%。较长的手术时长、恶性肿瘤、较高的mFI-5、入住NICU以及糖尿病增加了非计划再手术的预测风险，而肿瘤位于轴内及小脑幕上区域、以及原发性恶性脑肿瘤则降低了该预测风险（图5B和D）。通过结合SHAP值，瀑布图以直观的方式清晰地展示了针对特定患者的最终预测是如何形成的。这种可视化有助于揭示并更好地理解驱动模型决策过程的逐步推理及特征贡献。

Fig. 5 Local model explanation within the internal validation set. (A) SHAP force plot of patient A. (B) SHAP force plot of patient B. The colors illustrate the influence of each feature on the likelihood of unplanned reoperation, where red indicates a higher risk and blue signifies a lower risk. The length of the color bar corresponds to the magnitude of each feature's contribution, with longer bars representing a more significant impact. (C) SHAP waterfall plot of patient A. (D) SHAP waterfall plot of patient B.

网络计算器的应用

如图6所示，最终的预测模型已被整合到一个为临床应用设计的网络平台中。该应用程序允许医疗专业人员输入模型所需的十一项特定临床特征的实际测量值。输入这些数值后，系统会自动计算并显示接受颅内肿瘤手术的患者发生非计划再手术的预测风险。该网络应用程序可通过以下链接在线访问：https://unplanned-reoperation-risk-predicting.streamlit.app/。

Fig. 6 An example output of the web application. The web-based calculator for predicting unplanned reoperation probability in patients underwent intracranial tumor surgery. By simply inputting the patient information: sex, ASA scores, tumor location, mFI-5, type of tumor, diabetes, CHF, Functional dependencies, Benign or malignant, admitted to NICU and duration of surgery, it is possible to predict the risk of unplanned reoperation.

讨　论

在本研究中，我们基于单中心数据构建并内部验证了一个预测颅内肿瘤术后非计划再手术风险的机器学习模型，发现逻辑回归（LR）表现最优（训练集AUC=0.836，验证集AUC=0.769），优于其他机器学习方法。现有研究多依赖单一建模方法或国外数据库，难以全面捕捉变量关系或直接适用于中国患者；而结合电子病历数据与机器学习可提升预测效能。LR模型识别出11个关键预测因素（如手术时长、肿瘤位置、衰弱指数、是否入住NICU等），这些易于获取的临床特征有助于早期识别高危患者，但模型尚需外部验证。

相较于既往基于单一算法的机器学习研究，本模型通过系统评估多种算法并验证逻辑回归（LR）的优越性，补充了现有证据。针对“黑箱”问题，我们采用SHAP框架提供全局与局部可解释性，且所有预测变量均为住院常规采集信息，便于临床采纳。本模型以术后早期为预测时间点，整合患者术前基础脆弱性与术中生理影响，输出综合风险评分。该评分并非用于术前知情同意或术中决策，而是作为术后分诊与早期预警工具，辅助术后高风险恢复阶段的临床判断。

基于Streamlit构建了在线计算器，可依据常规临床参数即时预测非计划再手术风险，无需专用硬件。对识别的高风险患者，可触发相应干预路径：如升级至ICU监护、加强血流动力学监测、自动通知重症及手术团队进行快速评估。该工具目前为单中心概念验证，未来需外部验证及前瞻性研究以标准化管理方案。

结　论

总之，我们基于常规临床特征，开发并内部验证了一个可解释的机器学习模型，用于预测颅内肿瘤手术患者发生非计划再次手术的风险。在这一单中心队列中，该模型显示出辅助医疗专业人员早期识别高风险患者的潜力，从而为探索针对每位患者具体需求的个性化治疗策略提供了潜在依据。然而，在考虑该模型的任何形式的临床应用之前，在独立、前瞻性、多中心队列中进行外部验证是必不可少的前提。

第一作者简介