
机器学习在脑卒中风险预测中的应用进展
万红燕1 郝舒欣2 刘婕2 刘悦2
1东南大学附属中大医院江北院区介入与血管外科,南京 210048;2中国疾病预防控制中心环境与健康相关产品安全所,北京 100021
通信作者:刘悦,Email:liuyue@nieh.chinacdc.cn
DOI:10.3760/cma.j.cn341190-20231120-00462
【摘要】脑卒中临床表现多样,病因复杂,具有高发病率、高致残率、高复发率、高病死率和高经济负担五大特征。目前传统临床诊疗方法由于人力、时间等限制,存在患病和预后预测困难、诊断精确度低、治疗缓慢等问题。随着人工智能领域的深入研究和在医疗领域的应用,利用机器学习模型不仅能够较为准确地进行脑卒中预测和诊断,还可以识别危险因素,确定高危人群。本研究综述了机器学习算法的研究现状、脑卒中的危险因素识别和脑卒中预测常见的机器学习算法及在脑卒中风险预测中的研究现状和脑卒中风险预测的效果,为早期识别高危人群、采取有效的预防措施以及制定精确的治疗方案提供科学依据。
【关键词】卒中;机器学习;预测;危险因素;决策树;支持向量机;神经网;诊断;综述
基金项目:东南大学附属中大医院护理科研基金项目(KJZC-HL-202201)

脑卒中是一种大脑血管的急性神经系统疾病,可分为缺血性卒中(最常见,约85%的病例发生)或出血性卒中[1]。根据世界卫生组织(WHO)最新报告,全球每年约有1500万人患脑卒中[2],并已成为全球第二大死因,占全世界总死亡人数的10%,占所有残疾调整寿命的5%,对人口健康构成严重威胁,特别是在低收入或中等收入的发展中国家[3]。在中国,脑卒中发病率的年均增速已达到8.7%,对公众健康构成了极大的威胁,并且是导致全国成年人死亡和伤残的主要原因[4]。临床研究表明,前期预防和干预,早发现早处理能减少大脑受影响区域的进一步损伤和身体其他部位的并发症,且越早干预效果越好,可明显降低发病率、致残率和病死率。因此,早期诊断对脑卒中的预后尤为重要[5-6]。
随着大数据、人工智能等技术的发展和深入应用,机器学习在医疗领域展现了无法比拟的优势,可以提供快速准确的预测结果[7],基于机器学习方法构建脑卒中风险预测模型也成为近年来的研究热点。本综述通过文献检索汇总了机器学习在脑卒中风险预测中的相关研究,为及早识别高危人群和危险因素,采取有效的预防措施及制定精准的干预方法提供依据和参考。

1 机器学习算法的研究现状

机器学习是基于海量数据以及并行计算能力,让机器自主模拟人类学习的过程,通过不断从数据中学习和自我优化从而做出智能决策,是人工智能领域中的一个分支[8-9]。目前,机器学习在许多领域广泛应用,尤其是在医疗领域给医学实践带来了革命性的影响[10]。通过文献检索,脑卒中机器学习算法始于2005年[11],在此之前,脑卒中风险预测主要以逻辑回归、LASSO回归、Cox比例风险回归模型[12-13]等传统统计学模型为主,但传统统计模型存在对数据质量要求较高、对缺失值和高维数据不友好;海量数据导致模型效率低下;无法有效探索数据中的复杂非线性关系以及无法在数据存在复杂相互作用下进行评估[14]等问题。机器学习结合统计学和计算机科学的特点和优势,以海量、高维数据驱动模型学习复杂结构,通过多种算法进行预测[7],在数据特征提取及数据处理等方面明显优于传统模型[15]。
机器学习主要包括监督学习、无监督学习、半监督学习、深度学习、强化学习及迁移学习。脑卒中风险预测常用决策树、支持向量机、朴素贝叶斯、K-相邻、随机森林、神经网络等[2,16]模型,通过灵敏度、特异度、准确率、受试者工作特征曲线下面积等[17]对模型进行评价。

1. 1 支持向量机

支持向量机,监督式模型,在高维空间里建立最大间隔的超平面,将线性算法与线性或非线性核函数相结合,从而获得一个对分类结果泛化能力较强的线性方程[18]。支持向量机能够很好地处理高维、非线性、小样本等复杂数据,可避免过拟合风险。但训练大样本数据繁琐、耗资源、效率低,分类较多时会不可分类或分类重叠[14]。支持向量机对二分类、线性可分和非线性可分、小样本训练和高维数据具有较好的泛化性和鲁棒性。

1. 2 随机森林

随机森林,集成许多独立的决策树,决策树之间没有关联,以随机方式在决策树的基础上建立一个森林,多棵决策树的结果决定随机森林的结果。随机森林无须降维就能够准确处理大量级、高维离散或连续数据引入随机性可避免过拟合;训练速度快,可对变量进行重要性排序。随机森林在处理大型数据集或包含大量数据特征的数据集,计算成本可能会很高。同时随机森林模型中的每个决策树都是相互独立的,它的解释性较差。

1. 3 朴素贝叶斯

将特征词的关系视为可重复、可预测、可计算的机制,推断出某个特定情况下的结果,并根据结果计算出X的后验概率,X的值越小,Y值越高[19]。计算速度快、对高维和小样本数据适应性较好。但应用模型需先了解先验概率,模型与实际情况存在差异时准确性容易受影响。

1. 4 神经网络

神经网络,监督学习模型,模拟人脑神经系统对复杂信息处理机制,包含输入层,隐藏层和输出层,每个输入值都有权重,隐藏层的神经元先开始计算,将输入的信息转换成有效的结果后将其传输到输出层。可处理大规模标注数据,不断训练节点和隐含层,改变算法特征,从而使预测更加准确[20]。但需要大样本数据训练模型;大规模数据训练时需要较多的计算资源和时间;内部决策过程较难解释和理解。

1. 5 决策树

决策树,根据某种准则(如信息增益、基尼指数等),选择最佳特征作为树的根节点,然后根据根节点特征取值,将数据划分为多个子集,每个子集逐步递归,构建决策树的分支。模型结构直观、规则清晰明确,易于理解和解释;可处理离散和连续型数据,也能处理多分类和回归问题;异常和缺失值具有一定的鲁棒性。但容易生成复杂的模型,造成过拟合;数据微小变化可能导致完全不同的决策树模型;不适于处理高维稀疏数据。

1. 6 线性回归

线性回归,经典的线性统计模型,通过假设函数、损失函数、参数估计,描述自变量与因变量之间的线性关系。应用广泛,实现简单;可解释性好,预测结果较准确。但处理复杂交互特征数据和结果不准确;非线性数据拟合效果较差。

1. 7 逻辑回归

逻辑回归,常用的分类算法模型,将样本分为不同类别,通过假设函数、损失函数、参数估计建立预测模型。模型简单,容易理解和解释;计算效率较高,特别是处理大量级数据时表现良好;适用广泛,既可于二分类问题也可扩展到多分类问题。但非线性数据拟合能力有限;异常值和离群点较敏感,可能会影响模型的性能和鲁棒性。

1. 8 K近邻

K近邻,常用的分类和回归算法,用于根据样本特征将其分为不同类别或预测其数值。将训练样本的特征和对应的类别或数值保存起来,构建一个特征空间。对于一个新的样本,计算其与训练样本特征之间的距离(如欧氏距离、曼哈顿距离等)。根据距离的大小,选择与新样本最近的K个训练样本。分类问题,根据K个最近邻的类别,通过投票或权重计算确定新样本的类别。回归问题,根据K个最近邻的数值,通过平均或加权平均计算确定新样本的数值。无须显示训练过程,只需保存训练样本的特征和类别或数值;可以处理离散和连续型的数据,可用于多分类和回归问题;对异常值和噪声影响较小,可较好地处理不规则数据。但不合适的K值可能导致模型性能下降;要保存所有训练样本的特征和类别或数值,对存储空间要求较高。

1. 9 K均值

K均值,聚类算法,将样本数据划分为K个不同的簇(聚类)。随机选择K个数据样本作为初始的簇中心,分配样本,对每个样本计算其与各个簇中心之间的距离,将样本分配到距离最近的簇中心所属的簇,更新簇中心,对于每个簇计算其所有样本的均值,并将该均值作为新簇中心,反复迭代执行分配样本和更新簇中心,直到簇中心不再发生明显变化或达到预定的迭代次数。能够处理较大规模数据,相对较快地收敛到局部最优解。但K均值对初始簇中心选择比较敏感;对离群点和噪声数据较为敏感。

1. 10 极端梯度提升

极端梯度提升,基于梯度提升树的集成学习算法,广泛应用于分类和回归问题。设置初始预测值,然后迭代生成决策树,通过优化目标函数(如平方损失和对数损失)求解每个叶子节点的最佳分数,更新模型预测值,最后将每棵树的预测值与初始预测值相加,得到新的模型预测值,反复迭代生成决策树,直到达到预定的迭代次数或满足停止条件,最后将所有决策树的预测值相加,得到最终预测结果。能够准确地进行分类和回归预测;能够较好处理大规模数据;有较强的可解释性;支持多种损失函数。但参数调优较为繁琐,容易过于拟合;大规模数据训练时间较长。

1. 11 集成学习

集成学习,构建一个组合多个基学习器的集成模型,解决单一机器学习模型的问题以提高整体性能,包括Hardvoting、soft-voting和Stacking等[21-22]。从原始数据集中构建多个基学习器,分别对每个基学习器进行独立的训练,将多个基学习器的预测结果进行组合,最后生成最终的集成模型。能够有效减少过拟合,提高模型的泛化性能;能够减少模型因为数据变动而产生的波动提高模型的稳定性;减少个体学习器的错误;对于复杂的机器学习问题取得较好的效果。但需要训练和组合多个基学习器会增加训练复杂度和计算成本;对原始数据集质量要求较高。

2 机器学习在脑卒中风险预测中的应用


2. 1 脑卒中相关危险因素的识别

脑卒中病例特征复杂,影响因素众多,发病的病因涉及遗传因素和环境暴露、生活方式等影响因素[3,23-26]。国内外相关研究已证实脑卒中与多种暴露因素有关。孙勇等[20]研究中随机森林模型及SHAP预测值提示,高龄、收缩压、糖尿病、脂质核心体积、有无糖尿病治疗及壁径比值是新发缺血性脑卒中最重要的预测因素。张晓林等[27]研究中随机森林模型显示,载脂蛋白A、天门冬氨酸氨基转移酶、白蛋白、红细胞压积、糖尿病、乳酸脱氢酶为脑卒中排名前6位的复发影响因素。Emon等[28]研究中证实性别、年龄、高血压、心脏病、平均血糖水平、BMI和吸烟状态等因素与中风的相关性。Pradeepa等[29]研究中运用APRIORI算法显示,脑卒中的危险因素从高往低依次为流产和更年期提前等女性生殖因素、肥胖、高血压、肾脏疾病、胆固醇、生活方式、遗传史、高钠的摄入、饮酒、牙龈疾病、艾滋病及炎症。Wu等[30]研究中运用生存条件推理树方法显示,控制不佳的血压和极低的LDL-C浓度(≤40mg/dL)在脑卒中15个预测因子中排序最高。吴菊华等[31]研究中运用多层感知器神经网络方法和邵泽国等[32]研究中运用优化决策树方法均显示高血压、糖尿病、胆固醇、吸烟和饮酒等是脑卒中高危风险因素。Li等[33]研究中运用决策树Boosting模型显示,脑卒中与饮酒史、家族史、心脏病史、心脏杂音等具有相关性。Cheon等[34]使用深度神经网络的方法,利用医疗服务使用和健康行为数据来检测中风并识别卒中危险因素。此外相关研究表明[35-38],脑卒中也与空气污染、气象因素等多种暴露因素有关。

2. 2 脑卒中风险预测

脑卒中诊疗研究领域,机器学习被多项研究证实具有非常大的应用价值[14,39-40]。常怀文和姚音[41]研究中运用朴素贝叶斯模型及支持向量机模型构建江西地区缺血性脑卒中风险预测模型,结果表明支持向量机表现最优(AUC:1.0)且具有较高可信度。郭志恒等[18]研究中运用支持向量机、随机森林和logistics回归等模型对脑卒中患者进行分类研究和脑卒中早期预测,随机森林模型的准确率、精确度、ROC值都优于支持向量机和逻辑回归模型。Jeena等[42]研究中运用支持向量机预测脑卒中准确率达到91%。Bento等[43]研究运用支持向量机识别早期颈动脉粥样硬化患者预防缺血性中风的发生,效果显著(AUC∶:0.91)。Yang等[44]研究运用支持向量机预测脑卒中的发生,效果显著(AUC:0.91)。Dritsas等[17]研究中运用了朴素贝叶斯、随机森林、logistics回归、K-相邻、决策树、随机梯度下降等机器学习方法对脑卒中进行预测,结果表明随机森林模型最优且具有较高的预测能力和有效性。Lee等[45]研究中运用logistic回归、支持向量机、随机森林三种机器学习算法对脑卒中进行预测,显示随机森林模型最佳(AUC:0.851)。吴菊华等[31]研究中构建脑卒中神经网络预测模型,在完善脑卒中风险因素识别的同时也取得了较好的预测结果。Alanazi等[46]研究中运用四种机器学习方法预测脑卒中,结果显示随机森林模型最佳(准确性:0.96、灵敏度:0.97、特异性:0.96、阳性预测值:0.75、阴性预测值:0.99、曲线下面积:0.97)。Colak等[47]研究中使用知识发现过程方法、支持向量机及人工神经网络模型来预测卒中,结果显示人工神经网络具有更高的预测性能,所提出的神经网络模型在脑卒中临床决策时更具有意义。Cheon等[34]研究中运用深度学习算法预测脑卒中,效果显著(AUC:0.8以上)。叶伟等[48]研究利用Stacking集成学习方法将三种强监督学习器进行有效结合,提升了模型准确度和结果的准确性。Hwangbo等[49]利用集成学习方法预测缺血性脑卒中患者6个月的死亡率(AUC:0.789)。许多研究表明,不同机器学习算法预测模型的预测性能均明显优于传统预测模型[17,44,50]。使用机器学习方法进行脑卒中风险预测是一个极具前景的研究领域,与传统模型相比,具有诸多优势,如它能够自动、快速地整合和处理多维度大量级数据,并能够快速识别风险因素且能够提示风险因素的重要性程度,最重要的是机器学习方法能够基于更全面、更细致的数据进行分析,使得风险预测和风险评估具有较高的准确性,从而可以进一步帮助医生和研究人员更为精准地预测患者发生脑卒中的可能性,以便帮助医护人员更好地调整防控策略和制定更有效的预防措施。

3 讨论与展望

机器学习能够很好地协助医生做出更好的临床决策,能让脑卒中患者感体验全新的诊治模式,助力患者赢得更好的生活质量和预期寿命[51]。随着机器学习的不断优化,在脑卒中的风险管理和研究中,机器学习方法的应用日益广泛,不仅可以进行脑卒中的风险预测,还可以识别和分析脑卒中CT、MRI、血管造影等大量的影像数据,辅助脑卒中的诊断。此外基于脑卒中患者特定情况的数据,机器学习还可以帮助医生选择最合适的治疗方案,并预测特定治疗方法的效果;在脑卒中的康复方面,机器学习还可以通过分析过往的康复数据,预测患者未来的康复潜力和需要的康复时间。因此,机器学习方法不仅能够为临床医生带来了良好的执业体验,也能为脑卒中患者带来更多的福音。虽然机器学习方法在脑卒中领域有诸多潜在的应用场景,但也要正视其在发展和应用中的局限性。首先,机器学习模型需要大量的数据进行不断训练和优化,数据量大小会影响模型的性能,目前脑卒中病例数据比较分散和封闭,很难实现高效共享,对模型训练造成一定困难;其次,数据质量制约了脑卒中机器学习模型研究的性能和准确性。除了常见的缺失、异常、逻辑错误、重复等数据外,不平衡数据对机器学习模型预测的准确率、精确度、ROC值影响较大;再次,机器学习模型以数据驱动,模型内部运行方式很难被理解和解释,与传统的经典统计模型相比,可解释性是机器学习领域的一个重要问题。
机器学习属于交叉学科领域,学习曲线比较陡峭,需要医学、统计学、计算机、大数据等跨学科合作,才能取得更好的效果。但从长远角度看,机器学习相比传统统计方法还是具有显著的优势,也逐步成为医学研究的重要组成部分,将来会在脑卒中危险因素识别、早期诊断、预测和防治领域发挥重要作用。
利益冲突 所有作者声明无利益冲突
声明:脑医汇旗下神外资讯、神介资讯、脑医咨询、Ai Brain 所发表内容之知识产权为脑医汇及主办方、原作者等相关权利人所有。
投稿邮箱:NAOYIHUI@163.com
未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。
投稿/会议发布,请联系400-888-2526转3。