2025年05月26日发布 | 24阅读
神经介入-其他

中国团队在声调语言脑机接口领域取得重大突破 全球首个普通话多任务语音数据集发布

谭星辉

湖南创合生物科技有限公司

达人收藏、周刊收录2项荣誉

【导语】  

    深圳大学附属华南医院与香港中文大学(深圳)联合团队近日在《Scientific Data》发表最新研究成果,成功构建全球首个面向普通话的立体定向脑电图(sEEG)多模态语音数据集“VocalMind”,并实现从脑信号到语音波形的端到端重建。这一突破为声调语言脑机接口的临床应用奠定基础,有望为失语患者恢复语言功能提供新方案。  

 

研究亮点分类总结  

1. 填补声调语言研究空白  

- 覆盖人群:全球60%-70%人口使用汉语等声调语言,但既往脑机接口研究集中于英语等非声调语言。  

- 创新设计:数据集包含发声、默读、想象三种语音模式,涵盖单词(20个)和句子(100句),总时长67.85分钟,远超同类公开数据(通常仅5-10分钟)。  

2. 技术突破与模型性能  

- 信号采集:通过癫痫患者术中植入的9根电极(140触点)覆盖语言网络核心区(如Broca区、颞叶),获取高时空分辨率信号。  

- 解码模型:融合1D-CNN与双向GRU的神经网络,实现梅尔频谱重建。  

  - 发声语音:频谱相关性(PCC)达0.82,基频误差仅12.1Hz。  

  - 声调保留:解码的普通话四声轮廓与原始语音高度匹配(相关性>0.75)。  

  - 可懂度验证:合成例句“我们又见面了”获临床医生认可。  

3. 临床与社会价值  

- 应用场景:为失语症患者提供“思维转语音”的脑机接口解决方案。  

- 学术评价:美国加州大学旧金山分校Chang教授团队认为,该数据集“将显著推动语音BCI在亚洲人群的临床应用”。  

 作者点评  

    杜世伟、陶蔚团队与李海州团队的这项研究,不仅解决了声调语言解码的技术难题,更通过开放数据集(Zenodo)和代码(GitHub)推动全球学术共享。其创新性在于将临床需求与工程技术深度结合,例如利用动态时间规整(DTW)对齐不同语音模式的神经信号,为后续跨任务迁移学习提供了范本。  

 延伸阅读思考方向  

1. 技术挑战:默读和想象语音的解码性能仍低于发声语音(PCC差值约0.1),如何进一步提升非发声模式的准确率?  

2. 伦理考量:脑机接口语音合成可能涉及隐私问题,未来如何制定数据使用规范?  

3. 扩展应用:该技术能否适配方言或多语言使用者?需进一步验证神经编码的普适性。  

(注:原文链接及资源获取详见推文内信息)



最新评论
发表你的评论
发表你的评论