62岁的蒂姆·埃文斯(Tim Evans)在2014年被诊断出患有肌萎缩性侧索硬化症(ALS),这是一种进行性神经系统疾病,会导致肌肉无力、运动和语言功能丧失。埃文斯目前有严重的语言和吞咽问题。他虽然可以很缓慢的说话,但大多数人很难听懂他的话。
他在61岁时参与到约翰斯·霍普金斯大学医学中心和应用物理实验室合作开展的一项临床试验,该试验正在对严重语言和运动障碍患者使用该设备进行一系列研究,以恢复他们因神经系统疾病而丧失的部分能力。
在该研究中,研究人员将皮质电图(ECoG)植入物植入到感觉运动皮层,让埃文斯能够通过六个直观的语音命令操作计算机应用程序。在3个月研究期间,语音命令可以被准确检测和解码(平均准确率为90.59%),而无需进行模型再训练或重新校准。
1
模型架构
对于BCI神经解码模型,使用Inception Time架构设计了卷积神经网络(CNN)针对时间序列分类,并引入了可变长度的过滤器,以获取不同时间分辨率的分层潜在结构。在CNN的实现中,使用了六个Inception块,每个块有三个Inception模块(图1d),没有神经网络集成。使用植入后第77天至第120天收集的数据对显性语音命令解码模型进行训练。无声语音解码模型在植入后第83天至第225天收集数据进行训练。采用Adam优化器对解码模型进行优化通过保留一整天的数据作为验证集,使用不同的超参数选择来评估模型的性能。

在实时通信面板控制任务中,要求被试在一块4 × 8的通信板上自由选择自己的目标,并通过发出口头命令走向目标。应用程序开始时,通信板上的一个图标上方出现红色高亮显示。如果接收到输入命令,该高亮显示将变为绿色,如果接收到右、左、上或下命令,该高亮显示将分别向右、向左、向上或向下移动。收到返回命令后,高亮部分变成黄色。
实时解码
临床试验的参与者能够使用BCI实时控制外部设备并导航4 × 8通信板(图1a)。在运动和体感觉皮层区域植入两个64通道高密度ECoG阵列(图1a和4a)。本研究仅使用该阵列解码语音命令。BCI系统利用事件相关的HGE增加来确定用户是否发出了命令(图1b,c)。一旦检测到语音事件,使用卷积神经网络(图1d)在峰值检测前2秒和峰值检测后0.5秒的窗口中对神经特征进行分类。系统一旦收到解码结果,就向参与者提供视觉反馈。
CNN解码模型是根据在单词生成任务中收集的数据进行训练的,在该任务中,受试者被指示阅读屏幕上出现的六个命令。该任务的训练数据收集分别在植入后77天和120天开始和结束。为了适应系统无需重新校准的使用,所有数据都使用在上述时间框架内任意选择的一天(植入后95天)收集的音节重复任务中沉默期(刺激开始前0.8至0秒)的平均值和标准差进行归一化。
2
实验结果
稳定的解码器性能超过三个月
本研究将在线准确性定义为当参与者确实发出命令时,与转录匹配的实时分类结果的百分比。参与者的平均准确度为90.59% (95% CI:[89.47%, 92.00%],图2a)。这些结果表明,即使没有再训练或专门的基线重新校准,本研究设计的解码器是非常稳定的。

另外,本研究测量了检测算法的性能指标(图2c)。在整个研究期间,误检率和漏检率都保持在较低水平。研究发现这些指标与植入后的天数之间没有统计学上显著的线性趋势。此外,语音偏移和解码结果被BCI系统注册的中间时间间隔为1.24 s (95% CI:[1.23, 1.25],图2d)。这个响应速度表示系统从参与者发出指令到系统完成相应动作之间的延迟。
解码信号的稳定性
为了量化底层神经信号的稳定性,研究了用于解码模型训练的神经特征和在实时测试阶段收集的神经特征。图3b显示了两个示例电极(位置如图3a所示)在4 s时间内的HGE,从语音开始前1 s开始。在训练数据收集阶段和BCI系统实时使用的每个月,研究发现了类似的事件相关HGE增加模式(图3b)。

然后,比较了模型训练阶段与原始事件相关的HGE时间序列(相对于语音开始- 1.0到1.5秒)与实时使用的每一天之间的相似性。图3c报告了每个渠道在几天内的Pearson相关系数。尽管通道间的相关值存在差异,但训练过程中神经活动与实时使用之间的相关模式相对稳定。通道平均线有小幅上升趋势(图3c)。对于n = 37/60个通道,观察到相关性评分随时间的增加幅度很小,但具有统计学意义 (图3d)。对于n = 23/60个通道,相关系数与种植后天数之间没有明显关系(图3d)。这些结果表明,在实时使用过程中,神经信号保持了与训练数据的相对相似性。最后,从原始HGE的角度监测神经信号的稳定性,计算了每天在线使用期间每个命令跨通道的平均HGE(相对于语音开始- 1.0到1.5秒)(图3e),结果表明两者之间不具备统计学意义 (图3f)。
电极的贡献
本研究也检查了所选电极对解码性能和稳定性的最大贡献。首先测试了如果ECoG网格只覆盖运动或感觉皮质,是否可以实现类似的解码性能。使用在线会话的神经活动数据模拟了仅运动和仅感觉模型的实时使用,这些数据是通过上述方法使用所有60个电极检测到的。如图4,结果表明,ECoG网格的广泛覆盖可能是实现研究观察到的高性能所必需的,尽管性能稳定性似乎并没有受到减少覆盖的影响。然后,本研究更细致地研究了哪些特定的电极对解码的影响最大。电极影响在整个研究期间启用的空间模式如图4c所示。

总之,这些研究结果表明,本研究的脑机接口系统的性能和稳定性也适用于实验室模拟现实生活设置下的功能控制。然后,本研究检验了在无声语言的场景,是否可以实现稳定的性能。在这个任务中,参与者被指示默默地移动他的关节和面部肌肉,无声地模仿屏幕上显示的单词。研究结果表明,在没有发声的情况下,脑机接口也可以实现稳定解码。
3
结论与探讨
本研究证明了基于ECoG植入的语音BCI系统在控制外部设备方面的准确性和稳定性。通过在一个ALS患者身上进行为期3个月的临床试验,研究人员发现语音命令可以被准确检测和解码,而无需重新校准或再训练模型。本研究的结果可能是实现重度瘫痪患者独立家庭使用语音脑机接口潜力的第一步。另一方面,研究发现植入ECoG记录的高伽马反应的稳定性对解码的稳定性起着关键作用。此外,词汇表的限制和参与者的语音障碍是该研究的一些限制。进一步的研究需要验证该方法是否适用于其他类似条件的患者,并探索其他改进BCI性能的方法。
来源:脑机接口社区
专栏作者
杨艺 主任医师
首都医科大学附属北京天坛医院
主任医师,国家神经疾病医学中心脑机接口转化研究中心执行副主任。北京大学八年制医学博士,英国牛津大学Nuffield临床神经科学中心访问学者。北京脑科学与类脑研究中心青年学者,北京市科技新星。
聚焦于意识障碍疾病的系统诊断、预后预测和神经调控治疗,以及脑机接口新型技术的临床应用研究。2022年作为项目负责人获批“科技创新2030脑科学与类脑研究”青年项目“意识障碍的闭环神经调控治疗”。
更多精彩内容 请关注作者
点击或扫描上方二维码,查看更多“功能”内容