2026年02月09日发布 | 2284阅读

吴劲松教授:侵入式语言脑机接口研发的历程、现况和展望

吴劲松

复旦大学附属华山医院

颜裴松

复旦大学附属华山医院

达人收藏





引用本文颜裴松, 吴劲松. 侵入式语言脑机接口研发的历程、现况和展望[J]. 中华神经医学杂志, 2026, 25(1): 27-33. DOI: 115354-20251225-00834.

作者:颜裴松    吴劲松

作者单位:复旦大学附属华山医院神经外科



图片

     

     吴劲松

医学博士、主任医师、教授、博士研究生导师、上海市东方英才领军人才,上海市脑机接口临床试验与转化重点实验室主任、复旦大学附属华山医院神经外科副主任(科研)、复旦大学神经外科研究所副所长、复旦大学附属华山医院生物样本库主任、国家神经疾病医学中心脑胶质瘤专业组长。复旦大学附属华山医院伦理委员会委员、中国抗癌协会神经肿瘤专业委员会副主任委员、中国神经科学学会脑机接口与交互分会副主任委员、中国研究型医院学会精准神经外科委员会副主任委员、中国医学装备协会脑网络神经外科分会副主任委员、中国抗癌协会肿瘤样本整合研究分会常务委员、上海市神经科学学会常务理事、上海市抗癌协会常务理事、ASNO科学委员会主席、上海市政协委员(科技界别)。擅长领域包括脑肿瘤外科、脑机接口、医学人工智能等。以第一或通信作者身份发表SCI论文200余篇。以第一完成人获上海市科技进步一等奖、教育部科技进步一等奖、中华医学科技奖二等奖等。




摘    要

侵入式语言脑机接口(BCI)可绕过发声通路,直接将大脑语言相关皮层的活动转换为文字或语音输出,为重度语言障碍患者重建沟通能力。目前该系统已在临床受试者中初步实现较高精度的语言解码,但仍面临依赖长期和大规模侵入式记录、临床推广困难等挑战。本文概述语言BCI的技术框架,并与运动BCI对比,分析其在可量化神经表征与可迁移解码模型方面的不足;在此基础上,提出未来研发应围绕“可量化的语言神经表征可对齐的低维特征空间具迁移能力的预训练解码模型”,结合普通话音节与声调结构及中文语言模型,构建面向本土临床需求、具有推广潜力的技术体系。





前    言

侵入式语言脑机接口(brain-computer interfaceBCI)又称语言神经假体,旨在绕过受损的外周发声通路,直接从大脑语言相关皮层记录神经活动,并通过解码算法将说话意图转化为文字或语音输出[1-2]。在临床上,语言BCI为严重构音障碍、失语以及闭锁综合征等重度语言障碍患者提供了一种全新的沟通渠道,有望显著改善患者的生活质量与社会参与度。从基础神经科学的角度,它为在真实行为输出层面检验语音编码等语言相关的神经机制提供了新窗口[3-4]。从工程与产业的角度,它为未来高带宽静默通讯、人机协作和虚拟交互等应用提供了通用技术平台,具有重要的临床与科学意义。本文概述语言BCI的技术框架,包括神经记录设备、语言产生的神经机制基础以及解码算法的迭代进展,并参照运动BCI的发展经验,提出标准化、高效、实时的语言BCI实现路径。



一、语言BCI的技术框架

从系统工程视角看,语言BCI大致可以拆解为3个核心环节:(1)信号采集与植入设备:在何处、以何种空间/时间分辨率记录语言相关脑活动;(2)神经机制与任务范式设计:用什么任务来激发稳定可解码的语言表征(发音、尝试发音、想象发音、拼写、阅读等)(3)特征提取与解码算法:如何将高维、多通道的时间序列转化为可映射到语音/文本的特征,并通过机器学习或深度学习模型进行高效解码。

1. 神经记录设备:侵入式语言BCI依赖电极直接记录皮层或皮层下结构的电生理活动,与功能MRI、头皮脑电图等非侵入式技术相比,具有更高的时间-空间分辨率、更宽的信号频带和更稳定的信噪比,是当前实现高性能语言神经假体的关键途径[1]。目前侵入式电极的植入大多在癫痫术前监测、肿瘤切除术中等治疗操作中完成,按照植入的空间尺度可分为皮层脑电图(electrocorticographyECoG)电极、立体定向脑电图(stereo-electroencephalographySEEG)电极以及皮层内微电极阵列。

ECoG电极为柔性电极片或网格,铺置于硬膜下或硬膜外,可覆盖额叶、颞叶、顶叶等大范围皮层。其优势为覆盖面积大,可记录多个语言相关功能区皮层表面的局部场电位(local field potentialLFP);信号稳定性较好,适合中长期临床试验。已有前期研究证明高密度ECoG电极信号,尤其是高伽马频段(70~150 Hz)与感觉运动皮层的局部神经元群放电高度相关,可用于区分音素、音节和构音运动[2-4]

SEEG电极是从皮层穿刺至深部脑区的记录-刺激电极,多用于难治性癫痫术前定位,因此目前仍适用于床旁长期记录和复杂任务的采集[5]。以SEEG电极为代表的深部电极可同时记录皮层和深部结构的LFP,适合探索深部语言相关结构(如岛叶前部、基底节、丘脑)在语言环路中的作用。然而,SEEG单个电极皮层覆盖范围有限,植入轨迹高度个体化,不利于临床推广。

皮层内微电极阵列包括最典型的犹他阵列,以及下一代的单神经元电极。该类电极刺入皮层表层,以亚毫米级或更高精度记录单/多单位放电与LFP。其优势为可直接采集单神经元或小群神经元的放电模式,理论信息容量最高,但是会造成植入区域脑组织的损伤,因此适合在小范围脑区进行高通量记录。在明确目标脑区和解码范式的前提下可以大幅提升准确率。以Neuralink柔性电极为代表的下一代BCI电极均属于此类,目前相关研究正围绕高通量、植入相容性与机器人高效植入等方面持续优化[6]

2. 神经机制基础:为了实现有效解码,必须理解大脑如何在时间-空间维度上编码言语的产生和感知活动。从上游到下游,言语产生大致经历从“说什么”(语义/句法规划),到“怎么说”(构音序列计划),再到“开始说”(构音运动执行)3个阶段;言语感知则涉及从低阶语音输入到高阶语义信息提取的逐级加工。

Crone[3]1998~2001年在电生理层面揭示了高伽马频段的重要性:该频段反映局部神经元群的活动,在听觉任务中,颞上回等听觉皮层对语音刺激出现显著高伽马振幅变化。后来在言语产生任务中,Brumberg[2]证实腹侧体感-运动皮层等对应功能区也出现类似响应。在确立高伽马频段作为关键信号特征之后,Bouchard[7]通过高密度ECoG记录大量辅音-元音音节的发音,发现中央前回腹侧部存在与构音器官对应的拓扑分布。随后,Dichter[8]在运动皮层中定位到控制音高变化的关键区域,证明该区域高伽马信号活动与语音基频调节紧密相关。在此基础上,Chartier[9]进一步构建了发音运动学模型,并证明该模型与皮层高伽马信号之间存在线性映射关系。这一系列研究表明,腹侧感知-运动皮层通过时间-空间分布的活动模式编码构音运动,最终催生了首个基于构音轨迹的语言神经假体。Anumanchipalli[10]利用残差神经网络将腹侧运动皮层高伽马信号解码为构音运动轨迹,再由声学模型将这些轨迹转换为声道形状及声学参数,合成连续语音。

近期研究已拓展至更上游的语言处理阶段,如发音前的构音计划、构音想象和“内在言语”的皮层表征,这些研究为面向完全失语者的语言神经假体奠定了基础。围绕构音计划,Castellucci[11]Liu[12]分别设计了精妙的问答任务和延迟发音任务范式,精细地分离了计划阶段和构音阶段的神经活动,并发现中央前回中部和额中回后部的55b区在延迟期就已经出现显著活动,活动模式与后续发音序列高度匹配。进一步地,Kunz[13]的研究证明在完全不发声的条件下,尽管编码内在言语的神经活动水平较低,但在表征空间中和发音条件下的构音编码高度重叠。

在构音相关网络之外,语音感知和更高级别的语言加工网络同样为未来的语言BCI提供了重要基础。颞上回及颞平面的高伽马信号活动与语音频谱、音节节奏、基频轮廓等声学特征高度相关;沿颞上沟、后颞上回以及邻近55b区等高阶听觉区域向后外侧推进,神经元群体的选择性逐渐从频谱特征转向音位类别、音节结构和语流边界[4-5]。在更高层级上,Morgan[14]在额下回后部的Broca区和颞叶后部发现与句法角色和语句结构相关的神经表征,提示在构音网络之上,还存在一个高级语言表征层,为将来从“解码语音形式”进一步迈向“解码句法与语义状态”提供了潜在切入点。

3. 解码算法的迭代进展:回顾近年的代表性研究,解码算法的迭代进展主要体现在两方面:(1)深度端到端解码与语言模型/语音合成/快速校准结合,显著提升实时性能;(2)任务与适用人群从受控朗读扩展到自然对话、默读与想象言语,并逐步覆盖重度构音障碍与闭锁人群,同时将声调等语言特异维度纳入分级解码框架。

Anumanchipalli[10]开展了最早的语言解码研究,首次在接近自然发音的任务下构建了从脑信号解码构音特征进而合成语音输出的完整技术路线,并提出了经过构音运动分级解码的基本框架。随后,Moses[15]将这一思路推进到构音能力严重受损的脑干卒中患者,以深度网络从高伽马信号中解码目标词,并结合语言模型重组句子,在50词的小语料集上实现了通信速度约15/min、词错误率约47%的在线沟通。这一系统在算法上引入了深度分类与语言模型后端,在任务上从自然朗读转向功能性通信,在人群上则完成了从构音健全到受损患者的跨越,标志着首个具备临床使用意义的语言神经假体原型的出现。

在此基础上,犹他阵列可以在构音运动网络的关键区域记录高通量电信号,极大提升了解码性能。Willett[16]1例肌萎缩侧索硬化(ALS)患者的上述区域植入4块犹他阵列,利用卷积-循环网络从尝试发音时的放电模式中端到端生成字母/子词序列,并与大词汇语言模型联合解码,在约1.25万词开放词汇条件下实现约62/min的实时“打字式”通信。该团队最新的工作已帮助该患者恢复接近病前嗓音,实现包含音高、节奏和情绪在内的丰富韵律表达[17]Metzger[18]在类似设置的基础上,将文本解码与神经声码器和面部动画相结合,驱动虚拟形象进行带表情和口型的自然对话,在保持70~80/min通信速度的同时,显著提升语音和非言语线索的自然度。这两项工作在算法上代表了当前的主流框架:以发音运动网络为主要信号来源,利用深度模型从神经活动中提取时空特征,并将其转换为文字或语音输出。在此基础上,常结合语言模型进行纠错/补全,并通过语音合成或虚拟形象提升交互体验。

Card[19]的研究进一步致力于解决解码系统的“快速校准”和“长期稳定性”这两个关键问题,以使其能满足日常使用的需求。在同类犹他阵列植入基础上,他们提出通过大规模预训练加以少量个体数据微调的策略,将语言BCI的校准时间压缩到30 min,同时在数月内保持高精度解码,使患者在短时间内获得可用的语音神经假体,并在日常表达中达到约97.5%的准确率和32/min的通信速度。这一工作表明,在发音运动网络信号和深度解码框架基本确立之后,系统层面的瓶颈开始转向校准成本、跨日泛化和患者主观负担。

在以英语为主的研究之外,针对声调语言尤其是汉语的研究也沿着类似路径取得了快速进展。首先,Lu[20]在皮层层面明确了声调语言产生的关键机制,显示喉部运动皮层对词汇声调具有精细的调控和可解码的高伽马信号表征,为后续将“声调”作为独立维度纳入构音空间提供了生理基础。在此之后,Liu[21]在高密度ECoG基础上实现了对普通话声调、音节的解码与合成。Zhang[22]在音节解码的框架下结合语言模型约束,实现了对自然汉语声调句子的离线解码。Qian[23]将目标扩展到全谱的普通话音节,在实时条件下解码不同声母-韵母-声调组合。该研究被Science杂志网站新闻栏目报道,加州大学旧金山分校神经科学家Matthew Leonard评价其“极大拓展了BCI的适用人群”。

目前最前沿的神经解码工作已聚焦于默读和想象言语任务,以服务严重失语患者为核心目标。Kunz[13]通过对比出声阅读与内在言语任务,发现中央前回腹侧部及其周围发音运动皮层在完全不发声时仍保留可区分不同句子内容的高伽马信号活动模式,并与出声条件下的构音编码存在系统对应,为在不具备任何外周发声能力的患者中读出“内在言语”提供了关键依据。Jude[24]则在长期闭锁综合征患者的发音运动皮层植入6块犹他阵列,在完全缺乏可测构音动作的情况下,通过深度解码和语言模型实现约52%的句子准确率,初步证明了针对完全丧失言语及运动能力患者训练语言神经假体的可行性。




二、从运动BCI的发展经验看语言BCI的开发方向

与已经在临床试验中积累20余年经验的运动BCI比较,语言BCI仍处于从“高性能原型”向“稳定、可推广系统”过渡的早期阶段。当前侵入式语言BCI已经在植入器件和解码算法层面取得了与运动BCI相当的工程性能,但在神经表征层面的系统理解上仍有欠缺,尚需要实现跨任务、跨被试的可迁移解码。面向这一目标,未来的语言BCI研发可沿两条递进的主线推进:其一是提出科学机制明确的特征空间,依托单被试长时程与更高分辨率的侵入式记录,系统刻画语言相关变量的可量化表征与低维特征空间结构;其二是构建基于临床大规模数据的预训练模型,在统一任务与记录模态下汇聚多中心、多患者的短时采集数据,借助自监督预训练获得可迁移的中间表征,并通过少量个体标定与在线自适应实现快速部署。

1. 建立可量化的神经表征:在运动BCI的发展前期,积累了来自动物被试的大量单神经元和群体记录研究,系统地回答了运动皮层如何表征方向、速度、作用力等行为相关变量的问题,为后续高性能解码奠定了神经生理基础[25]。在此基础上,进一步的群体分析区分了初级运动皮层和前运动皮层的活动模式,分离出与外周输出直接相关和主要参与准备并编码运动模式的两类低维空间,为基于低维群体活动构建稳定解码器提供了清晰范式[26-27]

相比之下,侵入式语言研究在群体LFP层面已确定了构音与语音感知相关的低维特征编码机制。而更高级的语言变量(如语义与概念)更可能依赖高维、细粒度的神经元群体表征,LFP作为时空平均信号往往难以完整保留其关键结构。因此,面向未来的语言BCI,一个关键方向是借助超高密度微电极探针,在人类颞上回、额叶语言区和感知运动皮层获得大规模单神经元记录,系统描绘构音感知、语义角色乃至内在言语的调谐规律[28-31]。在这一层面建立起类似运动皮层可定量、可复现的编码规律,是后续构建语言相关低维特征空间,并在该空间内设计跨任务、跨日乃至跨被试解码器的前提。

2. 实现可迁移解码:自2018年以来,运动BCI逐渐形成了神经流形的统一框架。在高维的神经群体活动中,与行为直接相关的信息往往被约束在一个低维的神经活动空间中,这就是流形的概念。

在语言领域,主要存在两个层面的“语言神经流形”,其中已经具有较好研究基础的是低级的构音-声学流形。在感知运动皮层,已证实局部神经活动与构音体部、运动学轨迹及声学参数之间存在相互的映射关系[79]。因此可以通过降维方法在该区域同时提取解释多种音节、词汇和句子发音的低维表征。还需要更深入研究的是高级语言概念流形:在听觉及高级语言区,Hasson团队在自然叙事和自发对话范式中,将脑活动与深度语言模型的嵌入空间进行对齐,发现跨个体的语义理解和语境建构可映射到相对一致的低维表征,提示存在一个整合句法、语义和语境信息的高级语言概念流形[32-33]

从解码范式来看,构音-声学流形为基于发音运动的语音解码提供了结构良好的低维表征;而高级语言概念流形则直接面向语义与概念网络,为解码无法发音者的“静默语句”与交流意图奠定了理论基础。

从解码效能来看,提取低维特征空间具有明显优势。在运动BCI中,神经流形框架的核心做法是:先将高维神经群体活动压缩到维度远低于电极数的低维空间,在该空间中学习与行为相关的稳定结构,再将这些低维特征映射到光标或机械臂的控制变量[34]。这一策略不仅提高了单次训练的解码性能,更重要的是为长期稳定和泛化能力提供了技术路径。例如Degenhart[35]通过对齐不同日期间的低维神经空间,使解码器参数几乎无需更新即可在数周甚至数月内保持光标控制性能。借鉴这一经验,临床规模化脑机数据采集应锚定关键靶脑区,并采用跨中心统一的通用、高负荷范式(Singh[36]采取绕口令等高难度构音任务),使不同被试在构音等典型特征空间中产生可比较的神经响应,进而在群体层面学习稳定的语言子空间。新患者接入时,只需根据个体电极布局和少量标定数据求解映射到该共享空间,以实现预训练模型基础上做个体化微调的双层体系,推动临床推广。

3. 语言BCI的发展方向:对于中文语言神经假体,以神经元表征、低维特征空间和迁移解码为主线的框架具有特殊优势。一方面,普通话以音节为基本单位,声母、韵母和声调构成高度结构化的构音与声学空间,与词汇和汉字之间存在相对稳定的对应关系,使构音层与高级语言层之间的衔接相对紧密[37];另一方面,基于构音与音节的解码技术路线已经在多项研究中得到验证,能够在发音相关皮层中实现从脑活动到拼音或音节,再到语音或文字的分级转换[22-2338]

运动BCI与语言BCI的关键研究见表1。在现有研究的基础上,可以围绕统一的音节与构音特征空间,利用多中心、多任务的侵入式记录,训练一个在群体层面通用的脑电预训练模型,用于提取相对稳定、便于对齐的中间特征;再将这一中间表征与成熟的中文语音和语言模型对接,由后者完成音节到汉字、词组和句子的转换,以及语境下的纠错与补全。这样形成的解码框架既便于在不同任务和不同患者之间迁移和微调,也有利于随着数据积累不断优化解码效能,有望在降低单个患者校准负担的同时,早日推动面向汉语人群的语言神经假体由原型系统走向广泛的临床应用。

图片



三、结束语

语言BCI不仅具有临床意义,更有可能重塑人类信息交互的方式。群居物种有信息交互的需求,语言是人类的主要信息交互载体。人类通过语言实现个体间的实时信息交互,产生文化;人类借助文字语言实现代际间信息的传承,产出文明。展望未来10年,侵入式语言BCI可以实现发音语言和文字语言的实时在线解码重建、人类与外部世界的意念通讯与控制指令的传输,成为信息产业的颠覆性创新技术。具体来说,首先应达到可临床推广的水平:能够在低延迟下实时输出高保真语音,并以短时校准快速接入新患者,在跨日使用中维持稳定、可维护的性能。此后,应进一步推进对内在言语或意图表达的稳定解码与重建,使闭锁综合征患者等目标人群真正获益,并拓展静默通讯等前沿应用场景。与此同时,语言BCI与语言神经机制研究将继续相互推动:一方面可用系统牵引规模化数据与方法迭代;另一方面逐步厘清不同层级语言单位的神经表征与组织规律,最终让解码模型从黑箱模型走向机制约束下的可解释重建。


参考文献略

END

声明:脑医汇旗下神外资讯、神介资讯、神内资讯、脑医咨询、Ai Brain 所发表内容之知识产权为脑医汇及主办方、原作者等相关权利人所有。

投稿邮箱:NAOYIHUI@163.com 

未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。




最新评论
发表你的评论
发表你的评论
相关临床评分小工具