2025年10月28日发布 | 147阅读

BCI-T|文献:基于神经解剖学的脑机混合智能鲁棒声音目标检测

杨艺

首都医科大学附属北京天坛医院

达人收藏

近日,北京理工大学机械与车辆学院毕路拯教授团队以“Neuroanatomy-Informed Brain-Machine Hybrid Intelligence for Robust Acoustic Target Detection”为题提出了一种神经解剖学启发的脑机混合智能鲁棒声目标检测方法,该论文已在《Cyborg and Bionic Systems》出版(DOI: 10.34133/cbsystems.0438)。论文第一作者为其团队博士研究生史健廷。

论文摘要

声音目标检测(Sound target detection , STD)在现代声学传感系统中具有关键作用。然而现有自动化STD方法在低信噪比条件下或处理未见声音类别时,表现出较差的鲁棒性和有限的泛化能力。为突破这些局限,该团队首次提出基于脑机接口(BCI)的STD方法,利用听觉刺激诱发的神经响应进行检测。针对声音目标感知任务的EEG解码,团队提出了三区域时空动态注意力网络(Triple-Region Spatiotemporal Dynamics Attention Network, Tri-SDANet),通过整合源自表征分析的神经解剖学先验知识,在复杂听觉场景中既提升了解码精度,且提供了可解释性。鉴于独立BCI系统存在固有缺陷(特别是高误报率),该团队进一步开发了基于置信度的自适应脑机融合策略,智能整合BCI与传统声学检测模型的决策结果。这种混合方法有效融合了神经感知与声学特征学习的互补优势。通过16名参与者的实验验证表明:Tri-SDANet在复杂声学条件下的神经解码性能达到领先水平;混合系统在低SNR环境下保持可靠检测性能的同时,对全新的目标类别展现出卓越的泛化能力。此外,源分析揭示了与目标感知相关的独特大脑激活模式,为模型设计提供了神经科学依据。本研究开创了神经-声学融合的鲁棒声音目标检测新范式,通过无创神经信号与人工智能的结合,为现实应用提供了具有普适性的解决方案。

01

研究背景及主要内容


声音目标检测(STD)是一种利用声学传感器探测环境中目标存在的侦察方法。声学传感器具有成本低廉、维护简便的优势,且声学信号相比光学和雷达反射信号更不易被遮挡,使得STD在安防保护、环境侦察等领域具有广阔应用前景,近年来受到学术界广泛关注。

当前研究主要将STD视为机器学习中的分类问题,已有诸多相关工作提出了STD方法与系统。但研究表明现有STD方法的鲁棒性存在缺陷。现有方法在受控条件下通常具有良好的识别效率和准确率,但在实际场景中,由于环境因素和检测目标的变化,关键参数(如目标声信号的信噪比和声强)会发生剧烈变化,导致这些方法难以适应实际问题的条件。因此,完全自主的STD系统仍面临诸多挑战,某些情况下仍需人工参与,此时人工识别准确率高于机器学习算法。神经科学、心理学和听觉科学领域的大量研究已证实人类听觉系统具有强鲁棒性和泛化能力,但人工识别处理速度慢,难以应对海量数据处理需求,无法满足实时STD系统要求。

图1 模拟复杂声学场景的目标检测实验范式


脑机接口(BCI)是一种可直接"翻译"大脑活动来操作外部设备的新型人机交互方式。研究表明通过解码人类搜寻目标时的脑电(EEG)信号,BCI具备检测图像、视频或声音目标的能力。团队前期研究采用传统SVM算法作为EEG解码器开展初步探索,证实了基于听觉BCI的STD系统在复杂声学场景中的可行性。实验表明即使SNR降至-10dB,人类检测能力仍保持稳定。但现有EEG解码方法多为通用型或针对非听觉任务设计,专门针对复杂听觉场景目标识别的算法较少。更紧迫的问题是EEG信号的非稳态特性导致单独使用BCI时虚警率(FAR)较高,且BCI方法仍无法解决人类疲劳问题,这极大限制了其实际应用效果。

图2 三区域时空动态注意力网络(Tri-SDANet)


针对上述局限,本文首先对离线实验EEG数据进行源分析,揭示复杂听觉场景中声音目标感知相关的神经激活模式,为理解人脑在噪声条件下处理听觉目标的神经机制提供新见解。进而提出了新的EEG解码网络——三区时空动态注意力网络(Tri-SDANet),该网络将源分析获得的神经解剖学先验融入任务导向的模型架构:不同于传统均匀处理EEG通道的架构,Tri-SDANet采用基于神经解剖学的空间分区策略,将EEG电极划分为三个功能特异脑区,每个脑区采用具有生物学意义感受野的专用时空卷积分支建模;为捕捉听觉目标检测的时序动态特征,模型采用多尺度时间卷积和动态注意力加权机制,选择性增强早期、中期和晚期处理阶段的神经特征;新增时序门控模块自适应调节区域特异性激活,突出任务相关时段。这种设计提升了特征可解释性和任务相关性,从而显著增强复杂听觉场景下的解码精度。在BCI离线实验数据集上,Tri-SDANet在本文所构建的声音目标感知任务上相比现有最优模型在多项评估指标上均表现出优势。

图3 基于置信度的自适应脑机融合策略


进一步地,为缓解单独使用BCI的高虚警率和传统STD系统在低SNR及陌生环境下的性能退化问题,本文提出置信度驱动的脑机混合智能框架。不同于简单的分数融合方案,该方法引入基于置信区间优化的决策机制,仅在自动检测器表现不确定时自适应整合BCI输出,通过多目标评价函数平衡正确检测与错误抑制,实现按需调用神经解码,在降低人工负荷的同时增强系统鲁棒性和泛化能力。在构建的流式检测实验中表明,该混合框架有效融合了BCI与自动检测方法的优势并规避各自缺陷,尤其在挑战性低SNR场景和未见目标类型条件下展现出卓越性能。


图4 流式检测实验范式(测试场景)


02

研究结果


与其他先进算法相比,Tri-SDANet在复杂听觉解码任务中实现了最高的整体平衡性能。消融研究进一步证实,每个模型组件都对解码准确性和可靠性有积极贡献。

为了测试系统在低信噪比场景的鲁棒性与面对新类型目标的泛化性能,本文建立了更加复杂的流式实验作为测试场景。实验数据表明,Tri-SDANet模型在测试场景中展现出优势,在单独使用BCI的情况下,平均召回率达到84.20%±2.53%,误报率为10.74%±2.51%。这一结果验证了基于听觉脑机接口的STD系统的可行性,达到了预期目标。然而,由于脑电信号的非平稳性和低信噪比特性,即便采用先进算法取得了性能提升,其提升幅度仍有限。脑机接口的高误报率问题导致其无法作为独立的STD系统使用。而自动检测算法在测试场景下,在与训练集分布相似的数据集中召回率为94.17%,并且在高信噪比和低信噪比目标上均表现出较高的检测性能。对于未出现在训练集中的数据集,自动算法的召回率急剧下降,尤其在低信噪比情况下,召回率仅为40%。值得注意的是,自动检测模块能够保持极低的虚警率。

图5 声音目标感知的EEG源分析结果


脑机融合系统则充分利用了双方优势,获得了可靠的最终性能。与自动检测模块相比,检测召回率显著提升,尤其是针对新型目标。最终,脑机混合系统的平均召回率达到88.84%。与BCI系统相比,召回率有所提升,主要体现在中的与训练集分布相似的无人机类型能够保持自动检测模块的高召回率,且虚警率较BCI方法显著下降,脑机融合系统的平均虚警率仅为2.5%。


图6 单独使用BCI的测试结果(虚警率高)


图7 单独使用自动检测算法的测试结果(泛化能力弱)


图8 脑机融合系统的测试结果


03

研究贡献及前景


本研究为开发更具鲁棒性和泛化性的声音目标检测系统提供了新的思路,为人机混合检测奠定了理论基础。开创了神经-声学融合的鲁棒声音目标检测新范式,通过无创神经信号与人工智能的结合,为现实应用提供了具有普适性的解决方案。

END

声明:脑医汇旗下神外资讯、神介资讯、神内资讯、脑医咨询、Ai Brain 所发表内容之知识产权为脑医汇及主办方、原作者等相关权利人所有。

投稿邮箱:NAOYIHUI@163.com 

未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。

最新评论
发表你的评论
发表你的评论
来自于专栏
相关临床评分小工具
关键词搜索