虚拟人在电影、视频游戏、教育和虚拟交流等领域越来越普遍,但人类大脑对高度逼真虚拟角色与真实人类之间差异的综合理论尚缺失。人脸在社交互动中承载着丰富信息,包括情绪、身份和真实性。最新的计算机图形学技术,如GAN和VAEs,呈现出巨大潜力,但虚拟角色并非总能获得积极反馈。恐怖谷效应描述了高度逼真但不完全真实的虚拟角色被视为怪异的现象。各种研究试图解释恐怖谷效应,但仍存在不确定性。脑电图(EEG)等客观大脑测量工具被用于研究恐怖谷效应,以促进对其理解。基于稳态视觉诱发电位(SSVEP)等神经标记也被用于研究面部感知过程。
1
研究概括
德国一研究团队发现不同风格化水平的人脸图像影响大脑神经反应振幅,特别是SSVEP和N170分量,揭示了复杂的真实感知与神经反应振幅之间的关系,为理解面部感知的神经机制和改进人工智能算法提供了重要启示。
文章指出基于SSVEP的研究在作用的定位和真实性相关生物标志物的特异性方面仍然存在局限性。为了提供更多的神经生理学见解,探索SSVEP神经元信号的多变量性质,控制视觉刺激的低水平特征,以及开发用于快速检测真实性水平的机器学习算法,该研究团队通过使用脑电图(EEG)和基于SSVEP的神经标记等客观测量工具,理解人类大脑对于虚拟角色真实性的感知,以便更好地改进虚拟人的设计和应用。

该研究实验参与者共10人,其中女性2人,男性8人,年龄21 ~ 31岁。实验过程包括两个部分:行为部分(对刺激的主观评分)和神经生理部分(脑电图评估)。行为部分:参与者被要求对36张不同风格化水平的人脸图像进行主观评分,评估各个图像在吸引力、安慰、真实性、熟悉度和吸引力等五个维度上的感知。这些评分用于了解参与者对图像真实性的感知和评价。神经生理部分:使用脑电图记录参与者对不同风格化水平人脸图像的神经反应。每个参与者被呈现36个不同图像的10秒试验,脑电图数据被记录并用于分析。在神经生理部分中,主要研究了两种脑电反应:SSVEP和N170。SSVEP反映了视觉皮层对重复刺激的频率的同步振荡,而N170是一种特定于人脸刺激的ERP成分,通常在面部识别任务中被观察到。此外,采用了任务相关分量分析(TRCA)方法对脑电信号进行空间滤波,以对刺激的风格化程度进行分类。

这项研究共得出了以下几个成果:
1.SSVEP振幅与面部真实性的关系:SSVEP响应在5Hz及其谐波处达到峰值,与真实程度存在非线性关系。统计分析显示,最逼真的人脸图像和最抽象的人脸图像比中等水平的真实感唤起更高的SSVEP反应,符合UV假设的“山谷”现象。值得注意的是,在10 Hz和15 Hz的谐波中未发现类似效应。
2.N170振幅与面部真实性的关系:利用ERP测量发现,N170振幅也表现出二次关系,与先前的研究结果一致,最逼真的人脸图像和最抽象的人脸图像在N170振幅上都更高,而中等水平的真实感图像则较低。此外,N170峰值与刺激开始之间的潜伏期略有变化,但主要在R0和R3之间存在显著差异。
图2. ERP样式组分。(a) ERP样式响应的总平均值 (在电极PO8处) 黑色虚线表示刺激开始,灰色区域标记了计算N170样式组分幅度的时间窗口。(b) 在电极PO8处提取的N170样式ERP组分的响应幅度。(c) 在顶极-枕区电极簇中提取的N170样式ERP组分的响应幅度。较大的条表示较大的响应 (负N170振幅已反转)。误差线显示了95%的被试内置信区间。拓扑图显示了通道PO8的位置和顶枕区电极簇。
3.拓扑空间分布:SSVEP和N170样分量的头形拓扑图显示,对不同真实度水平的刺激,头皮电位的空间分布保持相对稳定。此外,研究发现眼睛大小等低层次视觉特征与面部真实性评分存在相关性,但在模型调整后,面部真实性水平的神经反应仍然存在。
图3. 在六个真实感水平下的SSVEP和N170响应的头形拓扑图。(a) 5 Hz SSVEP组分的振幅。(b) 10 Hz SSVEP组分的振幅。(c) 15 Hz SSVEP组分的振幅。(d) N170样式组分的振幅。请注意面板d中N170振幅的极性反转。在所有面板中,振幅均对所有参与者和会话进行了平均处理。
4.TRCA分类结果:对于6类(R0 ~ R5)分类任务,利用TRCA算法,在8秒数据利用时,平均准确率为47.46%,在限制为2秒时,平均准确率仍显著高于机会水平(39.48%)。分类结果显示了有效的分类,但在R4和R5组之间的错误检测最常发生,可能是因为这两个刺激类别之间高度相似。
图4. 分类结果的归一化混淆矩阵。(a) 两类别 (R0和R5,R4和R5)。数字表示分类准确度。(b) 六类别 (R0到R5)。对于2s的平均准确度为39.48±9.58%。显著的对角线 (对于给定类别的正确预测) 表示有效的分类。Acc表示不同分类结果的平均比率。
图 5神经反应、真实性评级和混杂因素眼睛大小的相互关系。(a)眼睛大小(像素)和真实度等级。(b)5Hz分量的FFT振幅(在电极Oz处)和真实度等级。
2
研究意义
这项研究深入探讨了不同风格化水平的人脸图像如何影响大脑神经反应的振幅,特别是SSVEP和N170分量。研究结果表明,参与者对图像真实度的感知与神经反应振幅之间存在着复杂的二次关系,类似于UV效应的现象。这表明面部感知是一个多层次的过程,需要额外的神经活动支持。在研究真实感知的神经关联时,从简单卡通图像到真实照片的广泛真实感水平中,发现了振幅与刺激真实性之间的相互作用。未来的研究可以进一步探索更广泛范围内的真实感水平,特别是在真实感“恐怖谷”区域,以更深入地理解这种关联。此外,利用脑电图中真实感-感知相关性信息,可以为生成更逼真人脸图像的算法提供生物学上有意义的指导。这些发现对于理解面部感知的神经机制以及开发更加逼真的人工智能算法都具有重要意义。
专栏作者
杨艺 主任医师
首都医科大学附属北京天坛医院
主任医师,国家神经疾病医学中心脑机接口转化研究中心执行副主任。北京大学八年制医学博士,英国牛津大学Nuffield临床神经科学中心访问学者。北京脑科学与类脑研究中心青年学者,北京市科技新星。
聚焦于意识障碍疾病的系统诊断、预后预测和神经调控治疗,以及脑机接口新型技术的临床应用研究。2022年作为项目负责人获批“科技创新2030脑科学与类脑研究”青年项目“意识障碍的闭环神经调控治疗”。
更多精彩内容 请关注作者
点击或扫描上方二维码,查看更多“功能”内容