2023年08月17日发布 | 180阅读

【综述】神经外科随机对照试验

张南

复旦大学附属华山医院

达人收藏

《Surgical Neuroogy l International》杂志 2022 年8月26日在线发表加拿大McMaster University的Radwan Takroni , Sunjay Sharma , Kesava Reddy ,等撰写的《神经外科随机对照试验。Randomized controlled trials in neurosurgery》(doi: 10.25259/SNI_1032_2021. )。

随机对照试验(RCTs)已成为评估(无论是内科还是外科)新干预措施的标准方法,也是为制定新的实践指南提供信息的最佳证据。当我们回顾内科与外科试验的历史时,在进行外科随机对照试验时通常面临更多的挑战和困难。这些挑战可能是在盲选、招募、资助,甚至在某些道德问题上。此外,在进行随机对照试验时,神经外科领域有其独特的挑战,这增加了复杂性。

本文旨在全面回顾神经外科随机对照试验的历史,重点关注研究人员面临的一些最关键的挑战和障碍。本综述将涉及的主要领域有:(1)试验设计:均衡性、盲法、假手术(sham surgery)、基于专业知识的试验、结果报告和试点试验(pilot trials);(2)试验实施:资金、招募和保留;(3)试验分析:意向治疗与接受治疗( intention-to-treat versus as-treated )相比较和学习曲线效应( learning curve effect)。

引言

随机对照试验(Randomized controlled trials,RCT)一词指的是一种研究,在这种研究中,人们被随机分配接受一种或多种临床干预措施。其中一种干预措施通常是标准医疗,也称为对照(the control)。对照可以是标准的做法,安慰剂(如糖丸),或者根本不干预(a standard practice, a placebo (e.g., sugar pill), or no intervention at all)。参加随机对照试验的人被称为参与者或受试者( participants or subjects)。随机对照试验旨在衡量和比较参与者接受相关干预后的结果。因为结果是可测量的,所以随机对照试验是定量研究(quantitative studies)。RCT设计的主要优点是通过产生平衡的干预组和对照组,最大限度地减少了选择偏差和已知和未知混杂因素的影响( it minimizes selection bias and the effect of the known and unknown confounders by producing balanced intervention and comparison groups)。“随机(randomized)”一词表明,将参与者分配到研究组完全是偶然的(solely by chance),即随机的。“对照”一词指的是将新的干预措施与对照组进行比较。如果操作得当,随机对照试验可以产生强有力的证据。

与其他医学和一些外科专业相比,神经外科随机对照试验的历史相对较短。神经外科作为一门专业直到19世纪末才开始,这可以解释为什么它是通过对照试验探索新治疗/干预的专业之一。McKissock等于1960年发表的后交通动脉瘤手术与非手术治疗的比较是神经外科学中首次发现的RCT。这项随机对照试验在该领域引起了巨大的争议,并导致许多后续出版物讨论了该试验的临床和方法学方面,批评其设计和推广。

为了说明这一时期神经外科随机对照试验的低质量和低数量,Haines检索了1945 - 1981年间发表的文献,回顾了51项神经外科随机对照试验。文献质量得分在0.09 - 0.82之间,1978年以前的平均得分为0.47,1978年以后的平均得分为0.57,由于有50%的文献发表于1977年以前,表明文献质量有改善的趋势。样本量很小,中位数为66例患者。在此期间,神经外科随机对照试验质量较差的主要原因之一是缺乏生物统计学家的参与(只有35%的研究承认他们参与了研究)。此外,未能提及数据分析师的盲法(61%),研究的开始和结束日期(45%),提供研究中使用的治疗方案的不完整定义(35%),以及概述所选患者的不明确标准(39%)也阻碍了研究的质量。作者进一步建议,调查人员应考虑样本量小的问题和回答感兴趣的问题所需的统计能力。

多年后,Mansouri等回顾了2000年至2014年间发表的61项神经外科随机对照试验。该综述继续显示报告盲性(65.8%的研究未报告)、样本量(中位数为100)和方案实施方面的问题。相反,报告资格标准、研究目标和统计方法的清晰度也有所提高。Vranos等对108项中位样本量为68例患者的RCT进行了类似的回顾,结果显示,只有28.7%的研究描述了分配隐藏,21.3%的研究给出了功率计算,13.6%的研究采用双盲法。Azad等最近的一篇综述采用与Vranos等相同的方法评估了2003年至2016年间发表的401篇文章。中位样本量为73例患者。只有28.9%的文章详细描述了分配隐藏,35.4%的文章描述了功率计算,13%是双盲RCT。我们可以从这些综述中得出结论,神经外科随机对照试验的盛行率很低,神经外科随机对照试验设计和报告的质量也不理想。

神经外科随机对照试验的挑战

尽管在过去的50年里取得了进步,但神经外科随机对照试验的设计和报告质量仍然不理想。在本节中,我们概述了在设计、实施和分析神经外科随机对照试验过程中经常遇到的重要方面。在关注调查人员面临的一些最关键的挑战和障碍的同时,我们将尝试为潜在的解决方案提供建议。

试验设计

性(Equipoise)

均衡性是指没有明确证据表明一种干预措施优于或劣于另一种干预措施的情况,这构成了进行随机对照试验的基本原理。在比较外科治疗和内科治疗时,这是很常见的。然而,一些试验者未能区分两个相关但完全不同的概念:临床均衡和个体均衡。当参与研究的临床医生没有偏好或确实不确定治疗提供的总体利益或危害时,就存在个体均衡。另一方面,临床均衡是一个术语,与临床医生的集体意见有关,他们的共识是,临床试验中的各种干预措施都没有明显的优势。这适用于整个行业(如指南或建议中所表达的)。这意味着拥有个体均衡的医生会让他们的病人参加临床试验,仅仅是因为他们对哪种治疗方法更好没有偏好。

然而,个体均衡引入了固有的偏见,因此,可能不等同于临床均衡,这通常是基于当时最好的文献。然而,当临床均衡被用作设计临床试验的基础时,参与的神经外科医生必须抛开他们的个人偏见,并先验地同意研究设计和方法,特别是研究的纳入和排除标准。他们还必须受到一致意见的约束,这将使参与试验的医生能够有效地做出决定。

参与试验的临床医生有效地利用临床均衡原则将导致招募更多具有更均匀基线特征的患者。因此,这将提供更清晰的可解释和有效的结果,这将有助于标准化实践。

假手术Sham surgery)

在医学干预的安慰剂对照研究中,总是鼓励双盲设计。简单地说,这意味着受试者和研究者都不知道特定受试者被置于哪个研究组。在这种情况下,如果在同意过程中明确了“共同无知”,则掩蔽治疗分配通常被认为是道德上可以接受的。然而,当比较两种不同的手术干预时,不可能使医生和患者盲性。在假手术试验中,只有患者对他/她接受的治疗“视而不见”。能够区分积极治疗和不积极治疗的临床医生,可能被要求参与主动欺骗。

在神经外科中,假手术的概念在帕金森病(PD)的治疗中得到了应用。Gross等和Freed等进行的两项著名的随机双盲对照试验将重度PD患者随机分配为胚胎神经细胞移植或假手术。两项研究都显示,与假手术组相比,对照组总体上没有明显的益处。基于这些结果,Polgar和Mohamed认为,使用假手术来评估PD的细胞疗法是不必要的,因此应该被认为是不道德的。

由于假手术的目的是确保研究者和患者对干预类型不知情,一种可能的解决方案是考虑使用前瞻性、随机、非盲和盲终点(the prospective, randomized, open-label, and blinded-endpoin;PROBE)研究设计。PROBE设计采用严格的随机化方法,研究者和患者都不是盲法,但结果由一个不知道治疗分配的独立委员会裁决,从而保证了治疗的公正比较和研究结果的评估。

盲法

盲法一词主要是指不让研究者和试验参与者知道指定的干预措施,以及结果评估者和/或分析师。盲法可以是单盲、双盲或三盲,不同的研究人员对每个术语有不同的定义。如前所述,神经外科的随机对照试验在报告的数量和质量方面存在致盲问题。Martin等对82项神经外科随机对照试验的系统综述显示,大多数试验为非盲试验,双盲试验相对较少(8.5%)。由于外科试验使用物理成分干预,因此盲法可能会很复杂。此外,盲法的某些方面是外科随机对照试验所特有的。Kiehna等认为,提高所有神经外科利益相关者对CONSORT指南的认识可能会改善试验设计和报告。德国外科学会研究中心提出了手术试验中盲法的计划、报告和评估建议。这个框架可以作为神经外科医生在计划盲法随机对照试验时的简单指南。

外科医生的专业知识

专家和专业知识的定义可能因专业而异,即使在同一外科专业内也是如此。专业知识可以理解为在给定的程序中持续再现良好表现的能力。

与其他外科专业相比,许多神经外科手术并不那么刻板,也不那么容易分类,因为用于处理特定手术目标的手术入路具有显著的可变性。神经外科医生之间缺乏手术干预标准化,导致他们根据自己的专业知识选择不同的方法,这可能会在比较两种不同手术方法/技术的试验中引入专业知识偏差。

外科医生专业知识的另一个问题是结果的普遍性。当一个手术是由一个非常专业的外科医生进行的,结果可能会与那些较少接触类似手术的外科医生相比有所不同(这构成了大多数执业外科医生,特别是在三级保健中心以外,那里的病例量预计会更少)。其中一个例子是Barrow动脉瘤破裂试验,该试验比较了显微外科夹闭和血管内线圈栓塞治疗急性脑动脉瘤破裂的安全性和有效性。在这项试验中,两种比较的手术都是由世界知名的、在脑血管和血管内神经外科领域非常专业的医生进行的。不管试验结果如何,它在该领域的整体实践中的普遍性是值得怀疑的。

神经外科随机对照试验需要明确专家阈值的定义。北美症状性颈动脉内膜切除术试验(NASCET试验)树立了一个很好的例子,即在参与试验之前确定外科医生的专业知识。为了参加NASCET,各中心必须证明其参与的外科医生在2年内累计至少50例连续病例的围手术期卒中和死亡率为6%。在可行的情况下,专家偏见的影响也可以通过基于专家的设计最小化,其中参与的外科医生只提供他们是专家的干预措施。

结果的定义和报告

结果(也称为事件或终点)是在研究期间监测的变量,以确定给定干预措施或暴露对特定人群健康的影响。主要结果是与回答研究问题最相关的变量。理想情况下,它应该以患者为中心(即,对患者重要的结果,如生活质量和生存)。次要结局是监测的附加结局,以帮助解释主要结局的结果。

美国食品和药物管理局(FDA)将患者报告结果(PRO)定义为“直接来自患者的关于患者健康状况的报告,无需临床医生或其他任何人对患者反应的修改或解释。”[a report that comes directly from the patient about the status of a patient’s health condition without amendment or interpretation of the patient’s response by a clinician or anyone else]患者报告的结果测量(PROMs),反过来,是用于报告PROs的通用或疾病特异性先前验证的工具。PROMs通常用于脊柱外科试验,以评估疼痛和功能结局,脊柱患者结局研究试验(SPORT试验)比较了腰椎间盘突出症的手术与非手术治疗。为了测量他们的主要结果,作者使用了医疗结果研究36项简短健康调查(身体疼痛和身体功能量表)和修改后的Oswestry残疾指数(美国骨科医师学会modem版本)。PROMs也被用于其他神经外科专科,如鼻内颅底手术和癫痫手术。Reponen等人鼓励使用PROMs作为神经外科结果报告的工具,因为从这些工具收集的数据可以帮助开发经过验证的神经外科特异性PROMs。

报告结果的另一种方法是以组合的形式。复合结果的使用增加了事件发生率,减少了样本量,但存在这样的风险,即临床相关性较低但通常较频繁的结果可能会影响试验的主要结果,或者单个组成部分朝不同的方向移动,从而产生不确定性。有或没有介入治疗未破裂性脑动静脉畸形的医学管理试验(ARUBA试验)报告了死亡或症状性中风的复合结果。作者得出结论,对未破裂的脑动静脉畸形患者进行随访33个月,在预防死亡或脑卒中方面,单纯药物治疗优于药物治疗加介入治疗。ARUBA试验面临着来自神经外科社区的大量批评,因为与死亡相比,中风事件的发生频率更高,这是一个更相关的结果。使用复合结局对试验设计是有吸引力的,因为它减少了所需的受试者数量,但这需要仔细考虑,并且复合结局测量的组成部分需要具有相同的权重和临床相关性。

最后,对结果测量的仔细描述,包括用于裁决它的关键标准,是确保成功的随机对照试验的外部有效性的关键因素。此外,通过在研究和临床实践中使用带有临床结果的PROMs来纳入PRO ,可以更全面地了解干预、治疗和/或服务对患者的影响。我们建议遵循2010年CONSORT声明的建议,该声明指出,所有结果测量,无论是主要的还是次要的,都应该确定并完全定义。

试点试验(Pilot trials)

试点研究是一项小规模的初步研究,在进行大规模的、确定的临床试验之前,评估可行性、持续时间、成本、抽样策略和其他研究技术。试点研究还为研究人员提供了初步数据,以深入了解他们提出的实验的潜在结果。然而,试点研究不应用于检验假设,因为没有计算适当的功率和样本量。相反,应该使用试点研究来评估参与者招募或研究设计的可行性。

在开始大规模手术试验之前进行试点研究是非常重要的,原因有很多,包括测试执行新程序或实施实验性治疗的可行性。如前所述,与医学试验相比,外科试验通常面临一些独特的挑战,这使得试点研究成为任何研究项目的重要阶段,以确定研究仪器和方案中的潜在问题和缺陷。

神经外科文献中有许多试点研究的例子,这些研究测试了招募患者进行更大规模临床试验的可行性。这些例子分布在不同的亚专科,如神经创伤、神经肿瘤、神经血管、神经儿科和围手术期癫痫发作管理。我们应该问的一个关键问题是,这些神经外科试点研究做得有多好,其中有多少被转化为更大的、确定的试验。Desai等人发表了一篇有趣的系统综述,研究了骨科外科文献中试点随机对照试验的特征,试图回答这些试点随机对照试验是否会导致最终的随机对照试验。基于这一系统综述,作者得出结论,大多数已发表的试验性随机对照试验并没有导致最终的试验。对神经外科文献中的试点随机对照试验进行类似的系统综述对于回答上述问题至关重要。虽然试验性随机对照试验可以提供许多有价值的信息,但它们确实有一些作者应该意识到的局限性。一个重要的限制是,试点研究不是假设检验,因此无法评估安全性和有效性。另一个限制是样本量小。初步研究通常无法评估治疗效果。

总之,尽管有其局限性,特别是当计划对一个常见的神经外科问题,如处理创伤性脑损伤,蛛网膜下腔出血,或椎管狭窄的大的,多中心的试验,试点试验仍然是非常有指导意义和帮助的。

试行实施(TRIAL IMPLEMENTATION)

资金

资金是任何随机对照试验成功的关键挑战之一。与医学试验相比,外科试验更难获得足够的资金。Rangel等发表的一篇综述研究了美国国立卫生研究院(National Institutes of Health)外科研究经费的趋势,结果显示,相对于其他非手术研究经费,外科试验获得的资助较少。为了解决这个问题,许多科学家选择从工业界获得资助。Khan等回顾了1981年至2017年发表在三大神经外科期刊上的110篇RCT,发现36.4%(40篇)的RCT 表示获得了行业资助。在有行业赞助的随机对照试验中,78%(31/40)的结论支持新药、器械/植入物或手术技术,而在没有行业赞助的随机对照试验中,这一比例为12.8%(9/70)。Azad等人在回顾了2003年至2016年发表的401项随机对照试验后得出了类似的发现,并报道行业支持的试验(21.9%)与具有统计意义的试验结果比例大幅增加相关。

有几种类型的偏倚可能与行业资助的试验有关。Radcliff等确定了颈椎置换试验中存在的四种偏倚:发表偏倚(发表具有积极结果的研究的倾向)、外部效度(研究结果可以应用于研究条件之外的情况的程度)、混淆偏倚(由于一个因素与暴露和结果独立相关而改变两者之间关联的扭曲)和经济利益冲突。类似类型的偏见也可以应用于由该行业资助的神经外科研究的其他亚专业。为了减轻对工业资助试验的影响,一些随机对照试验选择了混合模型,即工业和非营利组织都参与资助试验。Delgado等在回顾2013年至2015年发表在《柳叶刀》和《新英格兰医学杂志》上的随机对照试验时发现,与非营利和混合资助的随机对照试验相比,营利性资助的随机对照试验获得新治疗有利结果的优势比更高。

招募和终止试验

随机对照试验需要足够数量的参与者才能获得足够的动力。这对于试验回答特定的研究问题是必要的。总的来说,与内科随机对照试验相比,外科随机对照试验在招募患者方面似乎有更多的困难。Rosenthal等回顾了863项随机对照试验,发现与内科试验相比,外科试验因招募不良而终止的可能性明显更高。Mouw等对88,498项美国试验进行了更详尽的回顾,并得出结论,手术试验比非手术试验更有可能过早终止。该综述还表明,招募不良是所有试验早期终止试验的主要原因,在外科试验中更为明显。神经外科随机对照试验也存在类似的资源浪费和因招募不良而中止试验的伦理问题。Jamjoom等回顾了在clinicaltrials.gov网站上注册的64项神经外科随机对照试验,并报告17项(26.6%)试验提前终止,主要原因是患者招募缓慢或不足(57%)。

试验分析

意向治疗(ITT)与每个方案分析

如果随机患者的样本量足够大,随机化允许我们比较所有测量和未测量特征的试验组。它也允许适当的因果推理。在试验过程中,许多因素,包括交叉(crossover )或退出/失去随访,都会破坏随机化过程,最终产生与原始随机化相比不平衡的组。这种形式的不服从导致了统计能力的丧失。为了最大限度地减少偏差并保持预后平衡,强烈建议根据ITT原则分析试验数据,即根据参与者被分配到的组进行分析,而不管最终接受的干预措施是什么。ITT的对应项,按方案分析,将分析限制在按照方案完成研究的患者。然而,在治疗分析中,治疗分配可能由患者特征或外科医生经验决定,并且更容易产生偏倚。在优势试验中,ITT分析通常更保守(偏向于零),因为治疗效果因交叉和协议违反而减弱。在非劣效性或等效性试验中,ITT更倾向于积极的结果。提出经过处理的分析的做法,虽然在许多情况下有助于证实ITT,但可能导致发现不一致的令人不安的情况。以SPORT试验为例,其中39.7%的手术患者转入保守组,44.6%的保守治疗患者最终进行了手术。这种高交叉率导致ITT和治疗分析的结果不一致,使主要的试验问题没有得到解答。

减轻交叉和随访缺失带来的偏倚的统计方法包括工具变量分析、解释研究组间潜在差异退出的归算技术、边际结构模型和其他解释信息审查的模型。应用ITT原则,在试验中观察到的依从性水平上,对干预对主要研究结果的有效性进行了无偏估计。例如,当研究中的治疗是有效的,但有大量的不依从性,ITT分析将低估治疗效果的大小,将发生在依从性患者。虽然低估了有效的治疗方法,但它将是公正的。这种分析方法的结果比从每个协议分析中获得的估计更准确,无偏倚。

学习曲线效应

学习曲线(或经验曲线)是一种图形表示,它提供了外科医生技能随时间和经验的视觉评估。通过新技术的学习曲线,试验结果可能会受到操作人员获得的专业知识程度的影响。在此期间,一种与时间有关的混淆形式(操作员技能)可能会模糊试验的真实结果。在颅内动脉瘤的血管内治疗中使用新器械可以明显地说明学习曲线效应的一个例子。《颅内动脉瘤血管内治疗后再通分析(the Analysis of Recanalization after Endovascular Treatment of Intracranial Aneurysm Study )》的作者发表了一篇分析动脉瘤特征、研究人群和用于治疗IAs的血管内技术的文章。研究中使用的一种设备是Woven EndoBridge (WEB)系统,它被认为是一种新型设备。作者报告说,囊内血流阻断(使用WEB装置)在6.9%的未破裂的动脉瘤中使用,而在0.6%的破裂的动脉瘤中使用,解释这种有限使用的原因之一是“WEB应用的学习曲线可能是一个限制因素,并且可能不愿意在破裂的动脉瘤中使用这种新型装置。”

神经外科干预是复杂的,这使得通过随机临床试验对其进行严格评估变得复杂。分层模型、随时间变化的协变量、样条曲线和按累积手术量或招募时间进行的亚组分析( Hierarchical models, time-dependent covariates, splines, and subgroup analyses by cumulative surgeon volume or period of recruitment )可用于解释学习曲线。使用并发控制对于解释时间效应至关重要。

结论

循证医学是由分层证据提供信息的,这种分层为临床决策提供信息。随机对照试验构成了当今循证医学方法的基础,在指南制定以及新药和设备审批过程中发挥着重要作用。自从McKissock的团队在1960年发表了他们的第一个试验以来,神经外科的随机对照试验在过去的60年里有了显著的改善。然而,一些问题导致神经外科随机对照试验的质量不理想。盲法和报告的质量、偏倚、资金、招募和学习曲线是研究者在计划随机对照试验时通常面临的挑战。在这篇文章中,我们回顾了神经外科试验的历史,提出了在设计、实施和分析神经外科随机对照试验时经常遇到的最关键的问题,并提供了可能的解决方案。


未命名码.png

点击扫描上方二维码,查看更多“脑肿瘤”内容


声明:脑医汇旗下神外资讯、神介资讯、神内资讯、脑医咨询、Ai Brain 所发表内容之知识产权为脑医汇及主办方、原作者等相关权利人所有。

投稿邮箱:NAOYIHUI@163.com 

未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享

最新评论
发表你的评论
发表你的评论