::: tip 为什么选择分类愤怒和惊讶情绪? 在六种基本情绪中,愤怒和惊讶在实验室环境中相对较难被激发出来,脑图(EEG)和眼动信号在识别愤怒和惊讶情绪方面的互补表征特性仍然未知。 ::: 据我们所知,尽管Transformer已成为自然语言处理(NLP)和计算机视觉(CV)任务中最具影响的架构,但其在EEG和眼动信号的多模态
情感识别中的应用仍然有限。
每个阶段设计了11个试验。尽管我们的目标是调查愤怒和惊讶,但我们在实验和最终分类中添加了中性情绪,这调解了受试者的两种极端情绪,并促进了更好的诱导。每个试验包含两个部分:情绪诱导和自我评估,让受试者将情绪唤醒水平从1分到10分进行评价。
前六次试验旨在通过视频剪辑交替触发惊喜和中性情绪。在实验室环境中,不同的受试者很难唤起愤怒,持续刺激可能会产生更好的效果。以这种方式,连续安排了五次试验
第一次试验作为促进部分,旨在将受试者的情绪状态迅速转变为愤怒。
然后是观看关于社会不公正的视频剪辑。经过三次常规的视频试验后,会有一个特殊的回忆片段要求受试者记住最近发生的让他们最愤怒的事件大约三分钟。
最后,一个精心设计的游戏由主体玩了大约20分钟。在实验过程中,除升压试验外,同时采集EEG和眼动信号。实验结束后,受试者接受采访,指出他们玩游戏和三次试验时最愤怒的时期,以保持每个class和试验的数据平衡。
对于眼动信号,我们使用PCA
去除光反射,以提高瞳孔直径中的情感信息质量。我们提取了眼动信号的23个特征,其细节如图所示,其中块中的数字代表维度,蓝色的四个特征也是事件统计。
其中灰色和蓝色的部分分别是EEG和眼睛运动的Transformer
编码器。在位置编码
之后,来自两个模态的序列被馈入相应的Transformer
编码器,然后通过基于注意力的融合层融合到联合表示空间.
::: tip 为什么不需要Decoder? 因为我们不需要序列作为输出,所以执行作为分类器的全连接前馈网络,而不是解码器。 ::: 输入的EEG信号和眼动信号表示为: \(\begin{aligned} X_{e e g} &=\left(x_{e e g}^{1}, x_{e e g}^{2}, \ldots, x_{e e g}^{T}\right) \in R^{B \times T \times D_{e e g}} \\ & X_{e y e}=\left(x_{e y e}^{1}, x_{e y e}^{2}, \ldots, x_{e y e}^{T}\right) \in R^{B \times T \times D_{eye}}\end{aligned}\)
符号 | 含义 |
---|---|
B | 表示批次大小 |
T | 表示重叠窗口大小 |
$D_{eeg}$ | 表示EEG的特征维度 |
$D_{eye}$ | 表示眼球运动的特征维度 |
$O=(o_1,o_2,o_3)$ | 模型输出向量 |
$o_i$ | 表示情绪被识别为i类的概率 |
由于EEG和眼动信号(尤其是后者)的特征大小相对较小,因此我们在模型中不执行dropout
。为了规范化数据、缓解过度拟合和提高学习速度,我们在开始时对小批量应用Batch Normalization
。
考虑到EEG和眼球运动的时间序列太长,无法直接输入网络,我们部署了重叠窗口的大小为T秒,这将保持总样本大小(每个实验大约1200秒)不变。我们在工作中选择T作为5秒。
class token
连接在序列的开头以执行分类。位置嵌入
添加到patch
元素中,以获得时间序列的信息。L个相同的层堆叠以组装编码器,每个层由两个子层组成:多头自注意力MSA
和完全连接的前馈网络MLP
。每个子层都从层归一化
开始,以消除内部协变量偏移。并且在每个子层周围存在剩余连接以保留输入特征的信息并增强模型稳定性。 ::: tip GELU替代RELU的好处? 具有更好的性能,并避免了消失梯度问题 :::
首先,我们采用基于注意力的融合策略,因为我们的模型为基于纯注意力机制的。注意力权重$W_{init}$被随机初始化。
然后,我们使用两种模态的变换特征计算注意力权重的内积,然后使用softmax
对结果进行归一化。在获得注意权重$w_{eeg}$和$w_{eye}$之后,使用的融合输出被计算为单模态输出的加权和。整个过程公式化如下: \(w_{e e g}^{\prime}=<O_{e e g}, W_{i n i t}>\) \(w_{e y e}^{\prime}=<O_{e y e}, W_{i n i t}>\) \(w_{e e g}, w_{e y e}=\operatorname{softmax}\left(w_{e e g}^{\prime}, w_{e y e}^{\prime}\right)\) \(O_{f u s e}=w_{e e g} O_{e e g}+w_{e y e} O_{e y e}\)
我们对数据集上的每个主题执行三折交叉验证
。所有模型的性能通过所有实验的三折交叉验证精度进行评估。在我们的多模式架构中有四个超参数:
Transformer
编码器层L的数量Adam优化器
的学习率Adam优化器
的权重衰减单模态的基线模型是SVM、LSTM。ET表示情感变换器,它是所提出模型的单Transformer,没有基于注意力的融合。
我们将LSTM作为基线模型,因为LSTM及其变体广泛应用于情感识别,其利用时间特征的特性使其与Transformer具有可比性。 ::: tip Transformer的优势 EEG在识别数据集的三种情绪方面显著优于眼动信号。提出的情感转换器超过了基线模型,准确率分别为83.3%和77.86%,标准偏差为10.97%和13.46%
由于我们保持Transformer
编码器与原始编码器ViT尽可能相似,这表明Transformer
识别情感的有效性。 :::
对于多模态,所有模型都基于联合表示,以减少性能评估的变量。基线模型包括
::: tip 注意力的融合的优势 如表所示的最后两列,ETConcat
的准确性和标准偏差比ETF
差,这表明基于注意力的融合比直接级联能够从EEG和眼动信号中提取更多情感相关特征。 ::: ::: tip 精度优势 我们提出的模型ETF达到了90.02%的最高精度和7.06%的最低标准差,表明了我们模型的有效性。 :::