中国团队在声调语言脑机接口领域取得重大突破全球首个普通话多任务语音数据集发布

【导语】

深圳大学附属华南医院与香港中文大学（深圳）联合团队近日在《Scientific Data》发表最新研究成果，成功构建全球首个面向普通话的立体定向脑电图（sEEG）多模态语音数据集“VocalMind”，并实现从脑信号到语音波形的端到端重建。这一突破为声调语言脑机接口的临床应用奠定基础，有望为失语患者恢复语言功能提供新方案。

研究亮点分类总结

1. 填补声调语言研究空白

- 覆盖人群：全球60%-70%人口使用汉语等声调语言，但既往脑机接口研究集中于英语等非声调语言。

- 创新设计：数据集包含发声、默读、想象三种语音模式，涵盖单词（20个）和句子（100句），总时长67.85分钟，远超同类公开数据（通常仅5-10分钟）。

2. 技术突破与模型性能

- 信号采集：通过癫痫患者术中植入的9根电极（140触点）覆盖语言网络核心区（如Broca区、颞叶），获取高时空分辨率信号。

- 解码模型：融合1D-CNN与双向GRU的神经网络，实现梅尔频谱重建。

- 发声语音：频谱相关性（PCC）达0.82，基频误差仅12.1Hz。

- 声调保留：解码的普通话四声轮廓与原始语音高度匹配（相关性>0.75）。

- 可懂度验证：合成例句“我们又见面了”获临床医生认可。

3. 临床与社会价值

- 应用场景：为失语症患者提供“思维转语音”的脑机接口解决方案。

- 学术评价：美国加州大学旧金山分校Chang教授团队认为，该数据集“将显著推动语音BCI在亚洲人群的临床应用”。

作者点评

杜世伟、陶蔚团队与李海州团队的这项研究，不仅解决了声调语言解码的技术难题，更通过开放数据集（Zenodo）和代码（GitHub）推动全球学术共享。其创新性在于将临床需求与工程技术深度结合，例如利用动态时间规整（DTW）对齐不同语音模式的神经信号，为后续跨任务迁移学习提供了范本。

延伸阅读思考方向

1. 技术挑战：默读和想象语音的解码性能仍低于发声语音（PCC差值约0.1），如何进一步提升非发声模式的准确率？

2. 伦理考量：脑机接口语音合成可能涉及隐私问题，未来如何制定数据使用规范？

3. 扩展应用：该技术能否适配方言或多语言使用者？需进一步验证神经编码的普适性。

（注：原文链接及资源获取详见推文内信息）