4.情绪分类Transformer

| 论文名称 |A Transformer based neural network for emotion recognition and visualizations of crucial EEG channels| | ——– | ——– | | 期刊 |Physica A 3.778/Q1| | 方法 |在这项研究中，我们提出了一种新的神经网络模型(DCoT)，深度卷积和变压器编码器用于基于EEG的情绪识别，通过探索情绪识别对每个EEG通道的依赖关系，并将捕获的特征可视化。然后，我们在基准数据集SEED上进行主题依赖和主题独立实验，该数据集包含积极、中性和消极情绪的脑电图数据。| | 结论 |在学科依赖实验中，三个分类任务的平均准确率为93.83%。在非主题实验中，三个分类任务的平均准确率为83.03%。此外，我们还利用DCoT模型评估了每个EEG通道在情绪活动中的重要性，并将其可视化为脑图。此外，通过选取FT7、T7、TP7、P3、FC6、FT8、T8和F8这8个关键脑电通道，在2个分类任务和3个分类任务中均获得了令人满意的结果。使用少量的EEG通道进行情绪识别可以降低设备成本和计算成本，适合实际应用。| | 评价 |有DW-CONV层的模型在每个频段上的性能都比没有DW-CONV层的模型更好，这说明了引入DW-CONV层的效率|

本文的主要贡献如下:

本文提出了一种新的基于eeg的情绪识别任务模型DCoT。卷积结构和Transformer编码器的应用使得该模型既能提取不同脑电信号通道的局部特征，又能提取情感识别的全局依赖关系。实验结果表明，我们的DCoT模型在识别精度方面优于之前的研究。
采用深度卷积融合脑电信号的多频域信息。这使得DCoT模型在保持EEG通道独立性的同时，增强了特征提取能力。
模型的学习过程更具有可解释性，因为学习过程是对EEG各通道在情绪识别中的重要性的探索。我们可以将DCoT模型提取的特征可视化为脑图，显示情绪活动中大脑的活跃区域。这是相对于其他现有方法的优势。

实验数据集

我们在以下实验中验证了基于SJTU情感EEG数据集(SEED)的方法的有效性。 15名受试者(男7名，女8名，年龄23.27±2.37岁)参加情绪实验收集脑电图数据，通过观看15段情绪刺激电影片段(每段约4分钟)捕捉每位受试者的高质量脑电图信号。这些电影片段被选择来刺激积极情绪、中性情绪和消极情绪，每个电影片段有5个对应的电影片段。在观看完每个电影片段(试验)后，这些参与者被要求通过回答问卷来记录他们对电影片段的情绪反应。每个受试者每两周进行一次实验，共进行三次。因此，每个受试者每节试验15次，每个受试者共3节。

主要工作

数据处理

将原始EEG信号(1000 Hz)降采样至200 Hz;
采用独立分量相关算法(ICA)去除EOG信号和闪烁伪影干扰。
利用0-50 Hz的带通滤波器对EEG数据进行处理，以消除噪声。
在信号分割中选择合适的滑动窗口大小，可以为训练提供足够的样本，也可以让片段有足够的数据点进行特征提取。提取每个电影片段(长度约为4 min)持续时间对应的脑电图信号，将每个会话的15个trail(电影片段)的数据分别分割为相同长度的10s样本，互不重叠。
提取5个频段，分别是delta: 1-3 Hz, theta: 4-7 Hz, alpha: 8-13 Hz, beta: 14-30 Hz, gamma: 31-50 Hz。

手工特征提取

微分熵(Differential entropy, DE)作为一种非线性熵度量，在脑电信号识别中表现出了出色的性能，尤其是对情绪脑电信号的识别。标机微分熵定义为: 其中X为随机变量，f (X)为X的概率密度函数。由于脑电图信号已被证明服从高斯分布N(µ，σ 2)，故微分熵可计算为: 同时，对于固定长度的脑电图片段，微分熵等价于某一频段的对数能量谱。我们分别从5个EEG频段(delta: 1-3 Hz, theta: 4-7 Hz, alpha: 8-13 Hz, beta: 14-30 Hz, gamma: 31-50 Hz)中提取DE特征，利用256点短时间傅里叶变换和1秒的非重叠汉宁窗口。因此，我们每秒得到N × 1 × C维DE特征，其中N表示EEG通道数，C为EEG带数，对于T秒长度的样本，我们得到N × T × C维DE特征。

深度卷积层

输入DE特征被馈送到深度卷积层，该层在模型中起着重要作用。

DCoT模型能够利用深度卷积层提取多频数据的完整信息。

然而，简单地将不同频率的DE特征在时间维度上进行拼接，使得DE特征序列时间不一致。这种操作会导致时序特征的丧失以及关节处的干扰。因此，引入卷积层来消除负面影响。卷积层的实现进一步融合了不同频率的DE特征，并生成了新的特征。随着卷积核沿时间维移动，我们得到了一个时间相干特征矩阵，如图2b所示。这样既考虑了同一数据点上不同频段之间的固有关系，又避免了这些不必要的外界干扰。

其次，利用卷积层不仅具有良好的局部特征捕获能力，而且可以从每个EEG通道中捕获频域特征，减少了后续编码器块的计算量。综上所述，深度卷积层应用提供了更有效的特征信息，可以提高情感识别结果。

同时，为保证各脑电信号通道特征的独立性，不适用正则卷积，因此采用深度卷积。

Transformer

采用了Transformer的网络架构，该架构在自然语言处理（NLP）的翻译质量方面取得了优异的性能。与大多数竞争性神经序列转导模型一样，Transformer模块遵循encoder-decoder结构，使用stacked self-attention和point-wise全连接层。该模型将输入向量与三个不同的权重矩阵相乘，以获得查询向量（Q）、键向量（K）和值向量（V）。

"缩放点积注意力"如图所示，该图计算了具有所有键的查询的点积，每个键除以√dk，并应用softmax函数以获得值的权重，如公式所示：

$Q=W_{Q} X$ $K=W_{K} X$ $V=W_{V} X$

self-attention使用==点积==模型，输出向量可以写成公式。 $H=V \operatorname{softmax}\left(\frac{K^{\mathrm{T}} Q}{\sqrt{d_{k}}}\right)$ 之后$d_k$按比例缩放时，通过softmax函数获得每个输出通道上的注意力分数。

"多头注意力"如图和公式所示： $MultiHead (\mathrm{Q}, \mathrm{K}, \mathrm{V})= Concat \left(\operatorname{head}_1, \ldots\right., head \left._{\mathrm{h}}\right) \mathrm{W}$ $Wherehead _{\mathrm{i}}= Attention (\mathrm{Q}, \mathrm{K}, \mathrm{V})$ 在本研究中，我们采用了h=8个平行注意层（所谓的8个注意头），并将Transformer的编码器部分单独嵌入到EEG分类中。如图所示

Transformer模块有两个子模块。第一个子模块包括一个多头注意力层，然后是一个规范化层。第二个子模块包括位置全连接前馈层，然后是归一化层。围绕两个子模块中的每一个子模块采用剩余连接。

Positional Embedding

在自然语言处理领域，前人在Transformer模型中嵌入了Positional Embedding，以增加位置信息。对于EEG数据，我们探索了三类位置嵌入（PE）模块：相对位置编码、信道相关位置编码和学习位置编码。相对位置嵌入方法使用正弦和余弦函数来表示相对位置编码 $\begin{aligned} \mathrm{PE}_{(\text {pos }, 2 \mathrm{i})} &=\sin \left(\frac{\operatorname{pos}}{10000^{2 \mathrm{i} / \mathrm{d}}}\right) \\ P E_{(\operatorname{pos}, 2 \mathrm{i}+1)} &=\cos \left(\frac{\operatorname{pos}}{10000^{2 \mathrm{i} / \mathrm{d}}}\right) \end{aligned}$

符号	含义
pos	表示通道位置
i	表示时间点
d	表示向量的维数

原理

在电极矢量的每个位置，偶数和奇数时间点的PE分别由正弦函数和余弦函数描述，i是电极矢量中节点的索引除以2。我们对位置pos1和pos2进行了相对位置编码的内积，发现随着距离的增加，两个位置之间的相关性变小。

应用

在通道相关Positional Embedding中，选择Cz电极作为中心电极，并计算其他电极与中心电极之间的余弦距离。Pcentral表示中心电极Cz的三维坐标，Pk是三维坐标的第k个位置。通过使用simk距离而不是公式中的pos来执行运算，所得矩阵是信道相关位置编码的位置编码矩阵。 $\operatorname{sim}_{\mathrm{k}}=\frac{\mathrm{P}_{\text {central }} \cdot \mathrm{P}_{\mathrm{k}}}{\left\|\mathrm{P}_{\text {central }}\right\|\left\|\mathrm{P}_{\mathrm{k}}\right\|}$ 在学习的位置嵌入方法中，我们将相同大小的可训练矩阵嵌入到输入中，并随机初始化嵌入矩阵。在模型训练过程中，通过学习不断更新位置编码矩阵的参数。

模型

DCoT模型的概述如图所示。模型输入表示为X∈RN×T×C，其中N表示EEG channel的个数，T表示EEG sample的长度，C表示EEG frequency bands的个数

DCoT的基本组成部分包括深度卷积(DW-CONV)层、位置嵌入、可学习嵌入、变压器编码器和线性层。此外，变压器编码器由层归一化(LN)、多头自注意(MSA)层和前馈网络(FFN)组成

结果

不同频带下消极情绪和积极情绪的识别准确率

有DW-CONV层的模型在每个频段上的性能都比没有DW-CONV层的模型更好，这说明了引入DW-CONV层的效率。