其中X为随机变量,f (X)为X的概率密度函数。由于脑电图信号已被证明服从高斯分布N(µ,σ 2),故微分熵可计算为: 同时,对于固定长度的脑电图片段,微分熵等价于某一频段的对数能量谱。我们分别从5个EEG频段(delta: 1-3 Hz, theta: 4-7 Hz, alpha: 8-13 Hz, beta: 14-30 Hz, gamma: 31-50 Hz)中提取DE特征,利用256点短时间傅里叶变换和1秒的非重叠汉宁窗口。因此,我们每秒得到N × 1 × C维DE特征,其中N表示EEG通道数,C为EEG带数,对于T秒长度的样本,我们得到N × T × C维DE特征。
输入DE特征被馈送到深度卷积层,该层在模型中起着重要作用。
DCoT模型能够利用深度卷积层提取多频数据的完整信息。
然而,简单地将不同频率的DE特征在时间维度上进行拼接,使得DE特征序列时间不一致。这种操作会导致时序特征的丧失以及关节处的干扰。因此,引入卷积层来消除负面影响。卷积层的实现进一步融合了不同频率的DE特征,并生成了新的特征。随着卷积核沿时间维移动,我们得到了一个时间相干特征矩阵,如图2b所示。这样既考虑了同一数据点上不同频段之间的固有关系,又避免了这些不必要的外界干扰。
其次,利用卷积层不仅具有良好的局部特征捕获能力,而且可以从每个EEG通道中捕获频域特征,减少了后续编码器块的计算量。综上所述,深度卷积层应用提供了更有效的特征信息,可以提高情感识别结果。
同时,为保证各脑电信号通道特征的独立性,不适用正则卷积,因此采用深度卷积。
采用了Transformer的网络架构,该架构在自然语言处理(NLP)的翻译质量方面取得了优异的性能。与大多数竞争性神经序列转导模型一样,Transformer模块遵循encoder-decoder结构,使用stacked self-attention和point-wise全连接层。该模型将输入向量与三个不同的权重矩阵相乘,以获得查询向量(Q)、键向量(K)和值向量(V)。
"缩放点积注意力"如图所示,该图计算了具有所有键的查询的点积,每个键除以√dk,并应用softmax函数以获得值的权重,如公式所示:
\(Q=W_{Q} X\) \(K=W_{K} X\) \(V=W_{V} X\)
self-attention使用==点积==模型,输出向量可以写成公式。 \(H=V \operatorname{softmax}\left(\frac{K^{\mathrm{T}} Q}{\sqrt{d_{k}}}\right)\) 之后$d_k$按比例缩放时,通过softmax函数获得每个输出通道上的注意力分数。
"多头注意力"如图和公式所示: \(MultiHead (\mathrm{Q}, \mathrm{K}, \mathrm{V})= Concat \left(\operatorname{head}_1, \ldots\right., head \left._{\mathrm{h}}\right) \mathrm{W}\) \(Wherehead _{\mathrm{i}}= Attention (\mathrm{Q}, \mathrm{K}, \mathrm{V})\) 在本研究中,我们采用了h=8个平行注意层(所谓的8个注意头),并将Transformer的编码器部分单独嵌入到EEG分类中。如图所示
Transformer模块有两个子模块。第一个子模块包括一个多头注意力层,然后是一个规范化层。第二个子模块包括位置全连接前馈层,然后是归一化层。围绕两个子模块中的每一个子模块采用剩余连接。
在自然语言处理领域,前人在Transformer模型中嵌入了Positional Embedding,以增加位置信息。对于EEG数据,我们探索了三类位置嵌入(PE)模块:相对位置编码、信道相关位置编码和学习位置编码。相对位置嵌入方法使用正弦和余弦函数来表示相对位置编码 \(\begin{aligned} \mathrm{PE}_{(\text {pos }, 2 \mathrm{i})} &=\sin \left(\frac{\operatorname{pos}}{10000^{2 \mathrm{i} / \mathrm{d}}}\right) \\ P E_{(\operatorname{pos}, 2 \mathrm{i}+1)} &=\cos \left(\frac{\operatorname{pos}}{10000^{2 \mathrm{i} / \mathrm{d}}}\right) \end{aligned}\)
符号 | 含义 |
---|---|
pos | 表示通道位置 |
i | 表示时间点 |
d | 表示向量的维数 |
在电极矢量的每个位置,偶数和奇数时间点的PE分别由正弦函数和余弦函数描述,i是电极矢量中节点的索引除以2。我们对位置pos1和pos2进行了相对位置编码的内积,发现随着距离的增加,两个位置之间的相关性变小。
在通道相关Positional Embedding中,选择Cz电极作为中心电极,并计算其他电极与中心电极之间的余弦距离。Pcentral表示中心电极Cz的三维坐标,Pk是三维坐标的第k个位置。通过使用simk距离而不是公式中的pos来执行运算,所得矩阵是信道相关位置编码的位置编码矩阵。 \(\operatorname{sim}_{\mathrm{k}}=\frac{\mathrm{P}_{\text {central }} \cdot \mathrm{P}_{\mathrm{k}}}{\left\|\mathrm{P}_{\text {central }}\right\|\left\|\mathrm{P}_{\mathrm{k}}\right\|}\) 在学习的位置嵌入方法中,我们将相同大小的可训练矩阵嵌入到输入中,并随机初始化嵌入矩阵。在模型训练过程中,通过学习不断更新位置编码矩阵的参数。
DCoT模型的概述如图所示。模型输入表示为X∈RN×T×C,其中N表示EEG channel的个数,T表示EEG sample的长度,C表示EEG frequency bands的个数
DCoT的基本组成部分包括深度卷积(DW-CONV)层、位置嵌入、可学习嵌入、变压器编码器和线性层。此外,变压器编码器由层归一化(LN)、多头自注意(MSA)层和前馈网络(FFN)组成
有DW-CONV层的模型在每个频段上的性能都比没有DW-CONV层的模型更好,这说明了引入DW-CONV层的效率。