【导语】
深圳大学附属华南医院与香港中文大学(深圳)联合团队近日在《Scientific Data》发表最新研究成果,成功构建全球首个面向普通话的立体定向脑电图(sEEG)多模态语音数据集“VocalMind”,并实现从脑信号到语音波形的端到端重建。这一突破为声调语言脑机接口的临床应用奠定基础,有望为失语患者恢复语言功能提供新方案。
研究亮点分类总结
1. 填补声调语言研究空白
- 覆盖人群:全球60%-70%人口使用汉语等声调语言,但既往脑机接口研究集中于英语等非声调语言。
- 创新设计:数据集包含发声、默读、想象三种语音模式,涵盖单词(20个)和句子(100句),总时长67.85分钟,远超同类公开数据(通常仅5-10分钟)。
2. 技术突破与模型性能
- 信号采集:通过癫痫患者术中植入的9根电极(140触点)覆盖语言网络核心区(如Broca区、颞叶),获取高时空分辨率信号。
- 解码模型:融合1D-CNN与双向GRU的神经网络,实现梅尔频谱重建。
- 发声语音:频谱相关性(PCC)达0.82,基频误差仅12.1Hz。
- 声调保留:解码的普通话四声轮廓与原始语音高度匹配(相关性>0.75)。
- 可懂度验证:合成例句“我们又见面了”获临床医生认可。
3. 临床与社会价值
- 应用场景:为失语症患者提供“思维转语音”的脑机接口解决方案。
- 学术评价:美国加州大学旧金山分校Chang教授团队认为,该数据集“将显著推动语音BCI在亚洲人群的临床应用”。
作者点评
杜世伟、陶蔚团队与李海州团队的这项研究,不仅解决了声调语言解码的技术难题,更通过开放数据集(Zenodo)和代码(GitHub)推动全球学术共享。其创新性在于将临床需求与工程技术深度结合,例如利用动态时间规整(DTW)对齐不同语音模式的神经信号,为后续跨任务迁移学习提供了范本。
延伸阅读思考方向
1. 技术挑战:默读和想象语音的解码性能仍低于发声语音(PCC差值约0.1),如何进一步提升非发声模式的准确率?
2. 伦理考量:脑机接口语音合成可能涉及隐私问题,未来如何制定数据使用规范?
3. 扩展应用:该技术能否适配方言或多语言使用者?需进一步验证神经编码的普适性。
(注:原文链接及资源获取详见推文内信息)


