Semantic Audiovisual Single-trial Detection Based on the New Generation of Magnetoencephalography
In order to decode the difference between audiovisual bimodal and unimodal responses of the human brain in semantic context, this study designed a related task paradigm and applied a new generation magnetoencephalogram combined with the machine learning model to analyze the collected signals from three perspectives: behavioral response, event-related field (ERF) and single-trial detection. Results show that the unimodal semantic response was mainly concentrated in the occipital cortex, while the bimodal semantic response was mainly concentrated in the parietal cortex. At the same time, respondents' response rate and the detection accuracy of single-trial in bimodal mode were significantly higher than that in unimodal mode. Moreover, the support vector machine (SVM) showed the best classification performance among the four machine learning models, with an average classification accuracy of 75.16% for within-subject classification and 80.56% for between-subject classification. This research concludes that the combination of optically pumped magnetometer-magnetoencephalography (OPM-MEG) and machine learning model provides an efficient approach to decode the difference between audiovisual bimodal and unimodal responses of the human brain in semantic context.
郭旭, 王晨旭, 张欣, 常严, 崔峰, 郭清乾, 胡涛, 杨晓冬.
GUO Xu, WANG Chenxu, ZHANG Xin, CHANG Yan, CUI Feng, GUO Qingqian, HU Tao, YANG Xiaodong.
脑磁图(MEG)是一种非侵入性神经成像技术,可以在人头皮外检测到大脑的磁场[1].脑磁图(MEG)与脑电图(EEG)不同,因脑磁信号在传递过程中受头皮、颅骨、脑脊液等介质干扰较小,信号不易变得模糊扭曲,所以对比于脑电图而言,在时间和空间上都有着较高的分辨率[2].随着无自旋交换弛豫(spin-exchange relaxation-free,SERF)原子磁力计(optically-pumped magnetometer,OPM)的快速发展[2,3],对比基于超导量子干涉仪(super conducting quantum interference devices,SQUID)的传统脑磁图(SQUID-MEG)而言,其无需依靠超低温环境就能实现较高的探测灵敏度(15 fT/Hz),通过将OPM传感器阵列排布在头部测量帽上可实现新一代可穿戴脑磁图仪——OPM-MEG[4⇓-6].OPM-MEG相比SQUID-MEG更接近大脑,因此可以获得更高的信号振幅[7,8],允许受试者有更大的活动范围来进行长时间连续的单词或短语实验刺激,更加适用于开展基于行为学任务下的语言实验研究[2].
目前开展语言任务实验最常采取的现代技术为事件相关电位/场(event-related potentials/fields,ERP/ERF),通过测得时间锁定的大脑反应,获得特定感觉、认知或运动事件的直接结果(脑磁图中称为事件相关场ERF,脑电图中称为事件相关电位ERP).语义相关的ERF成分主要包括M400(包括P400和N400)、M600(包括P600和N600)和M300(包括P300和N300),其中M300为早期语言认知常见的ERF成分,反映大脑皮质对语言的认知加工过程,可作为体现人类语言功能的特异性波形.在目前脑机接口(BCI)研究与应用中,大多数研究者认为基于事件相关电位/场的BCI系统(ERP/F-BCI)更加高效且稳定[9].ERP/F-BCI系统中,受试者可以对基于视觉或听觉通道的刺激进行选择性注意来实现对目标字符或任务的选择[10].但大多数对于语义相关的ERP/F-BCI研究都是基于视觉或听觉的单通道刺激,Geuze等[11]使用L2正则化逻辑回归算法作为分类器,对基于视觉呈现的相关和不相关单词的语义启动(Semantic Priming)范式进行单次试验检测,并发现所有参与者都能有效检测到语义相关的ERP成分N400和P300.Tanaka等[12]记录了18名被试听含有语义或语法异常的口语句子时的大脑活动,并利用多层感知机(MLP)检测N400和P600准确率为59.5%.
近年来,研究者也开始对视听混合刺激范式进行研究:Mortier等利用5个目标数字与5个视觉或听觉干扰数字来构建视听混合刺激[13];Pires等利用7个视觉单词与其口语发音相结合构建视听混合刺激[14]. 上述研究均得到视听双通道混合刺激比单一视觉或听觉刺激具有更好性能的结论,但其探索设计的BCI范式都是基于脑电信号在刺激后300 ms所诱发出的与早期语言认知相关的P300成分,未能检测出语义相关的其他ERP成分,例如N400和P600.Chang等[15]利用汉语高频名词设计了一种新的基于视觉条件下的词图匹配语义判断任务,整合了图片与词语,能有效的诱发出N400波形,Lu等[16]也从行为学的角度对视听通道的图片和词汇语义加工进行比较研究,结果表明:视听双通道的整合效应对图片和词汇语义信息加工均有促进作用,且证实了词汇语义信息的加工要比图片语义更为缓慢和复杂.然而对于图片语义加工,在脑机接口中视听整合效应是否会有同样的促进效应,依然是一个需要验证的问题.
1 材料与方法
1.1 参与者
1.2 实验设计
3组语言任务改编自Chang等[15]所设计的词图匹配范式.从《基础名词认知卡片大全》中,挑选日常生活中出现频率较高的120张彩色卡通认知图片,图片尺寸为6英寸(15.24 cm×10.16 cm),图片内事物名称均为双字词.语言任务基于MATLAB平台的Psychtoolbox3工具包进行设计,并利用DATAPixx硬件工具箱将任务画面传输至屏蔽房中投影屏幕呈现.书写字符以100磅(3.53 cm×3.53 cm)黑色宋体字呈现在被试前方约70 cm距离的白色背景屏幕中央,屏幕尺寸为15.6英寸(34.54 cm×19.43 cm),分辨率为1 920×1 080,刷新率60 Hz.彩色图片呈现大小约占白色背景屏幕1/4,双字词语呈现大小约占白色背景屏幕1/27.
3组语言实验任务呈现顺序如图1所示,首先呈现图片1 500 ms,紧接着屏幕白屏500 ms,随后1 500 ms内,视觉条件下仅投影屏幕呈现汉语词语文字,听觉条件下仅耳麦以口语的方式播报词语语音而屏幕画面呈现白屏,视听同步条件下屏幕呈现汉语词语文字,同时耳麦以口语的方式播报相同词语语音,最后呈现十字加号1 800~2 200 ms(平均2 000 ms),在出现十字加号时,要求被试对3种条件下出现的词语与图片的语义进行判断,若图片与词语语义相同则按下手柄中的红色按钮,反之则按绿色按钮.词汇与图片均随机呈现,每种条件下词图语义一致和不一致情况出现次数均为60次,共进行120次词图语义判断.在实验之前,所有被试都需要进行预实验,以确保他们完全理解实验规则.连续两个刺激条件之间有3 min的休息时间.
1.3 数据采集与预处理
数据采集工作在一个内部尺寸为1.75 m×1.95 m×2.23 m的磁屏蔽室内进行,其可屏蔽地球磁场至10 nT以内,确保传感器处于正常工作状态.室内放置一台与外界操作刺激电脑相连接的投影屏幕,用于呈现视觉刺激,投影屏幕前放置一台集传导声音刺激的空气耳机和OPM传感器于一体的智能化座椅,可任意调节座椅高度确保被试视线与投影屏幕中央在同一水平线.本研究使用了由8通道OPM传感器(Gen-2.0 QZFM,QuSpin Inc.Colorado,USA)组成的阵列.将这些传感器布置在一个由弹性塑料制成的柔性头盔上,其可被伸展以适用于任何头型.脑磁数据通过模拟信号接入两张16位的NI(National Instruments,USA)数据采集卡进行获取,采样率为1 024 Hz.根据之前研究[12,17,18],分次测量了左右额颞叶、顶叶和枕叶感兴趣区的信号,在左右额颞叶各放置3个OPM传感器,枕叶和顶叶各放置1个OPM传感器,共采用8个OPM传感器测量头部脑磁信号(如图2,图中采用数字1~8对OPM传感器进行编号).实验时,要求被试佩戴好插有OPM传感器的柔性脑磁帽,舒适地坐在屏蔽室内座椅,并根据屏蔽室内投影屏幕指示完成实验.
OPM-MEG的数据处理使用MATLAB R2022b(The MathWorks,Inc.),利用巴特沃斯滤波器对原始信号进行1~80 Hz的带通滤波,降采样至256 Hz,并对数据进行去趋势.按照刺激十字加号呈现时间的-300~ 1 000 ms对去趋势后数据进行分段,以-300~0 ms为基准进行基线校正.
1.4 数据分析
1.4.1 行为学数据分析
对被试按键准确率(Accuracy,ACC)和反应时间(Reaction time,RT)分别进行重复测量方差分析(Analysisofvariance,ANOVA),采用模态(听觉、视觉和视听同步)作为被试内变量,并进行事后检验(t-test,Bonferroni校正).使用Mauchly检验评估球形假设,并在需要时使用Greenhouse-Geisser非球形校正来进行p值校正,Bonferroni校正用于多重成对比较.
1.4.2 ERF分析
因语言相关ERF成分主要在6 Hz左右[12],为进一步提高信噪比,使用巴特沃斯零相正反向滤波器对信号进一步进行1~8 Hz带通滤波,此步骤仅为更好的可视化分析ERF,并未将滤波后数据进行后续的分类检测.基于之前语义与语法相关的M400和M600响应研究,M400的峰值潜伏期大约在刺激呈现后300 ~500 ms,M600的峰值潜伏期大约在刺激呈现后500~800 ms[19,20],所以选择100~300 ms、300~500 ms和500~800 ms 3个时间窗口进行分析,计算所有被试3个窗口下的平均振幅,并将传感器位置划分3个感兴趣区域(ROIs):左边(OPM-1,OPM-3,OPM-6),中间(OPM-4,OPM-8),右边(OPM-2,OPM-5,OPM-7).针对于视觉、听觉和视听同步3种模态,分别在每个时间窗内对每个模态下匹配与不匹配两种条件和3个感兴趣区域进行双因素重复测量方差分析,检查条件间的主效应以及条件和区域之间的相互作用.使用Bonferroni方法对条件和区域之间的相互作用进行事后多重比较,显著性水平设置为0.05,如果p值小于临界α水平(0.05),则得出两种条件下的数据具有显著性差异的结论.
1.4.3 特征提取与分类
对于分类模型,使用支持向量机(SVM)[23]、随机森林(RF)[24]、线性判别分析(LDA)[25]和深度学习中的长短期记忆模型(LSTM)[26],所有的分类模型都是在MATLAB中实现的.首先在15名被试数据内,对每名被试数据采用十折交叉验证进行被试内数据的分类检测,训练集与测试集比率为9:1,即将每名被试数据样本随机分成10份,每次采用其中9份108次作为训练,1份12次作为测试,重复进行10次网络结构训练,计算十折交叉验证的平均分类精度作为最终精度;然后,进行被试间数据分类,即将15名被试数据按照4:1划分为训练集和测试集,即12例被试数据在4种分类模型中进行训练,随后在3名被试数据上进行测试.线性SVM算法使用fitcsvm()函数实现,使用“一对一”分类.LDA算法使用classify()函数实现;RF算法采用Abhishek Jaiantilal开发的randomforest-matlab开源工具箱中classRF_train()函数实现;LSTM模型包含一个输入层,一个LSTM层,一个ReLU激活函数和一个用于多分类的softmax激活函数作为输出层,其中LSTM层的隐含单元个数为128.
2 结果
2.1 行为结果
3种模态条件下,参与者执行行为任务均具有较高的准确性,ACC的平均值(±标准差)在视觉条件下为(97.72±2.28)%,在听觉条件下为(95.94±4.06)%,在视听条件下为(98.11±1.89)%.RT的平均值(±标准差)在视觉条件下为(490.01±162.17)ms,在听觉条件下为(447.47±195.08)ms,在视听双模态条件下为(424.16±189.86)ms.3种模态间ACC和RT经重复测量ANOVA所得F检验的统计量对应的p值均小于显著性水平0.05,表明3种模态间ACC和RT均具有显著的主效应[ACC:F(2,28)= 3.83,p= 0.04;RT:F(2,28)= 7.19,p= 0.004].事后检验进一步表明,被试在视听条件下相比于视觉[F(1,14)= 19.87,p= 0.015]和听觉[F(1,14)= 14.43,p= 0.03]条件能更快地做出判断.
2.2 ERF分析结果
Fig. 3
The total superimposed average diagram of all subjects in three modes(on the left)and the differential wave (mismatch-match) topographic map (on the right)
3种模态在每个时间窗内重复测量方差分析结果如表1所示,3种模态下的词图匹配刺激所诱发出的大脑响应具有显著性差异.在视觉和听觉单模态条件下,300~500 ms时间窗内条件与区域都有显著的交互效应,并进一步事后检验表明,二者均在中间和左边两个区域表现出显著性差异,其中在听觉模态下,条件与区域之间在500~800 ms时间窗内同样表现出显著的交互效应;在视听双模态条件下,100~300 ms和500~800 ms时间窗内条件间都具有显著的主体内效应,而条件与区域之间未发现显著的交互效应.
表1 重复测量方差分析结果
Table 1
模态 | 时间窗t/ms | 重复测量方差分析 | ||||||
主体内效应检验 显著性p值 | 条件与区域交互效应 显著性p值 | 成对比较 | ||||||
区域 | 平均值差值 匹配-不匹配 | 显著性p值 | 差值的95%置信区间 | |||||
下限 | 上限 | |||||||
视觉 | 100~300 | 不显著 | 不显著 | |||||
300~500 | 0.016 | 0.007 | 左边 | 0.21 | 0.029 | 0.02 | 0.39 | |
中间 | 0.49 | 0.009 | 0.14 | 0.83 | ||||
500~800 | 不显著 | 不显著 | ||||||
听觉 | 100~300 | 不显著 | 不显著 | |||||
300~500 | 不显著 | 0.003 | 左边 | 0.2 | 0.013 | 0.05 | 0.36 | |
中间 | 0.19 | 0.014 | 0.08 | 0.58 | ||||
500~800 | 0.001 | 0.004 | 左边 | 0.3 | 0.007 | 0.09 | 0.51 | |
中间 | 0.6 | 0.001 | 0.3 | 0.9 | ||||
视听 同步 | 100~300 | 0.044 | 不显著 | |||||
300~500 | 不显著 | 不显著 | ||||||
500~800 | 0.02 | 不显著 |
2.3 单试次检测
Fig. 4
On the left is the classification accuracy of test set in four classifiers for each subject data in three modes; on the right is the average classification accuracy of all test sets
(a) 3种模态下所有被试内数据分类准确率;(b) 3种模态下被试间分类准确率;(c) 4种分类器在3种模态下的被试内数据分类水平;(d) 4种分类器在3种模态下的被试间数据分类水平
Fig. 5
(a) Accuracy of data classification in all subjects under three modes; (b) classification accuracy among subjects in three modes; (c) the data classification level of the four classifiers in three modes; (d) the classification level of data among subjects under three modes of four classifiers
3 讨论
ERF分析结果显示,视听双模态和单模态条件下的词图匹配均能诱发出明显的语义特异性波形M400和M600,这为一直以来开展基于P300成分识别目标刺激的ERP/F-BCI提供了新思路,但M400和M600对比于P300潜伏期更长,随着潜伏期的增长,大脑参与的语义处理的区域更多,这也意味着需要更加全面的了解各个脑区的认知活动,本研究利用8通道OPM传感器分布在左右额颞叶、顶叶以及枕叶,共同探讨语义视听双模态和单模态条件下大脑响应差异,在刺激后1 000 ms内,视觉和听觉单模态条件下在枕叶以及左右额颞叶诱发出更大的语义启动响应,而视听双模态条件下语义启动响应主要集中于顶部中央区域,已有研究发现人类语言产生最早开始于大脑皮质额下回的Broca区和颞上回处的Wernicke区,二者通过弓状束相连接,是语言处理的核心区域[18],枕叶是参与早期视觉语言加工有关的重要区域[32],顶叶在处理短期空间记忆信息中占主导作用[33],根据Peter Hagoort提出的关于语言加工的记忆-整合-控制模型,表明视听同步刺激也可能促进语言加工处理,加速激活中央顶叶区域,让语言加工更快进入记忆存储阶段并进行词汇信息提取,将语音和语义信息整合到整个语言的全部表征中,从而控制行为快速地进行词图语义判断[34].
4 结论
