| 名称 | 描述 | | – | – | | BCI竞赛IV-2a数据集 | 9名受试者的4种不同MI类别(即左手、右手、脚和舌头) |
数据集来自格拉茨理工大学主办的BCI竞赛IV的2a数据集。数据集采集自3个心电通道和22个EEG通道,采样率为250Hz。每个被试的实验包括左右手、脚、舌头四项分类任务。图1为采集脑电信号数据时的实验范式。
||| |-|-| |目的|去除影响脑电信号分类精度的噪声和伪影是脑电信号分类的关键环节| |方法|CAR
(Common average Reference)是指原始MI脑电图信号减去所有电极信号的平均值| |原因|由于大量研究表明CAR可以有效地提高MI脑电图信号的信噪比,因此引入CAR方法使MI脑电图信号的信噪比最大化。|
\(S_i^{C A R}=S_i^{E R}-\frac{1}{n} \sum_{j=1}^n S_j^{E R}\) 其中n为电极通道数,$S_i^{E R}$为电极通道i上采集到的信号。
MI脑电信号的特征提取主要体现在四个方面:
为了尽可能多地捕获MI脑电信号中的信息,采用时频分析方法将一维MI脑电信号转换为二维tfi
。常用的时频分析技术有
::: tip 为什么选择WT而不是STFT? 由于STFT无法同时捕捉到令人满意的时间特征和频率特征,因此分别对分类任务对应通道中的MI EEG信号进行CWT处理。 ::: 我们合并了三个通道(C3, Cz, C4)的2d - tfi。C3、Cz、C4通道的2D-TFI和C3、Cz、C4通道合并后的2D-TFI如图所示
原因 | 数据扩充是指不扩充实质性数据的情况,让有限的数据产生相当于更多数据的价值 |
方法 | 采用在图像分辨率恢复领域表现较好的增强型超分辨率生成对抗网络 (enhanced- superresolution generative对抗network, ESRGAN)进行数据增强 |
优势 | ESRGAN得益于密集连接模式,这不仅增加了网络的深度,而且还实现了更复杂的结构,从损失的角度,在ESRGAN中引入了一种新颖的思维方式,即判别器是估计真实图像相对于虚假图像更真实的概率。特别地,使用相对论平均判别器代替标准判别器来估计真实图像比生成图像更真实的概率。通过这种改进,网络可以学习到更清晰的边缘和更详细的纹理 |
公式分别表示传统GAN中使用的标准判别器和ESRGAN中使用的相对判别器 \(\left\{\begin{array}{l}D\left(x_r\right)=\sigma\left(C\left(x_r\right)\right) \rightarrow 1 \\ D\left(x_f\right)=\sigma\left(C\left(x_f\right)\right) \rightarrow 0\end{array}\right.\) \(\left\{\begin{array}{l}D_{\text {Ra }}\left(x_r, x_f\right)=\sigma\left(C\left(x_r\right)-E\left[C\left(x_f\right)\right]\right) \rightarrow 1 \\ D_{\text {Ra }}\left(x_f, x_r\right)=\sigma\left(C\left(x_f\right)-E\left[C\left(x_r\right)\right]\right) \rightarrow 0\end{array}\right.\) 生成网络的最终损失函数由三部分组成: \(L_G=L_{\text {percep }}+\lambda L_G^{R a}+\eta L_1\) 其中,$\lambda L_G^{R a}$、$L_{\text {percep }}$、$\eta L_1$分别表示对抗损失、感知损失和含量损失。
||| |-|-| |概述|LAFFN模拟了ResNet的结构和类似DenseNet的密集连接模式,以提取2d - tfi中的融合特征| |效果|将低级特征与高级语义特征相结合,增强输入分类器的特征向量的辨别能力| |改进|为了防止在每次特征融合过程中引入过多的噪声,在每个融合层后增加了改进的注意机制(并行CBAM)| |原因|CBAM的加入有效地提高了特征融合的实用性,使输入分类层的特征向量更具鉴别性|
RDB的细节和LAFFN的总体架构。
退化问题往往是由于优化器难以通过多个非线性层逼近身份映射而导致的。ResNet[50使优化器中多个非线性层的权值趋于0,在模型达到最优时通过残差块框架逼近身份映射。此外,身份映射没有引入额外的参数和计算复杂度,计算公式为 \(H(x)=F(x)+x\)
CBAM是一个结合了通道注意机制和空间注意机制的注意机制模块。传统的CBAM将信道注意模块和空间注意模块依次连接。这种串联模式无疑会导致前面的注意模块学习到的特征影响后面的注意模块的学习。因此,我们尝试将两个注意模块并行连接,以消除这种影响。并行CBAM的体系结构如图所示 通道注意机制对特征图中每个通道的平均池化描述和最大池化描述进行提取和求和。然后,将通道注意机制获得的特征输入多层感知机(MultiLayer Perceptron, MLP),得到最终的特征图。
空间注意力机制通过平均池化和最大池化的串联获得通道维度的特征描述,然后通过卷积层的卷积运算,以7 × 7的卷积核生成空间注意力特征图。
在本研究中,实验在Tesla K80的Tensorflow平台上进行。原始数据集共包含2592个2d-tfi
。
在原始数据集上进行数据增强。输入数据集包含7776个2d-tfi
,是原始数据集的三倍。数据集按照6:2:2的比例分为训练集、验证集和测试集。亚当被选为优化者。所有评价均在30次迭代后进行。
为了选择最佳时间窗口,引入一个延迟为3s的滑动窗口来提取时间窗口。比较了不同时间窗下的实验结果。其中,选择不同的时间窗口为3-6s、3.25-6.25s、3.5-6.5s、3.75-6.75s。实验结果列于表1。表1中的"原始"为原始的9s MI EEG数据。从实验结果可以看出,根据MI运动成像任务的启动时间窗口的截取可以有效提高精度。该模型在3-6s时间窗下表现最佳,分类准确率为91.58%,Kappa值为0.881。与原始MI脑电图数据相比,分类准确率提高了0.43%,Kappa值提高了0.006。基于这一结果,本文后续所有实验都在3-6 s的时间窗口内进行评估。其中$P_{Acc}$和$P_e$分别代表分类精度和随机精度。 \(Kappa =\frac{P_{\text {Acc }}-P_e}{1-P_e}\)
为了寻找最佳超参数,在每个RDB中使用不同大小的卷积核来评估性能。
三种卷积大小的实验结果见表2。从实验结果可以推断,在RDB中设置5 × 5卷积核时,该模型表现最好,分类准确率为92.05%,Kappa值为0.887。较大的卷积核可以获得较大的接受场。但是,当采用核大小为7的卷积进行特征提取时,模型的分类精度相对于5 × 5的卷积有所降低。
超参数的选择在很大程度上决定了LAFFN的性能。大量超参数在训练中起着重要的作用。在LAFFN的训练过程中,我们评估了多组学习率。学习率过小(如0.0003)会导致收敛缓慢,学习率过大(如0.01)会导致收敛缓慢导致不收敛。另外,batch size的选择与是否选择BN层以及训练平台的硬件条件密切相关,所以我们选择了16个batch size。最后,经过多次评估,确定L2正则化的惩罚系数为0.002。在LAFFN的三个串联rdb中,神经元数量分别固定为16、32和64。表3给出了训练所需的超参数切片。
本研究旨在设计一种能够提高脑电信号MI分类精度的方案。所提出的LAFFN可以充分有效地利用中间卷积层提取的特征。此外,还对模型压缩技术在LAFFN中的应用进行了探索,并取得了令人满意的效果。首先在MI脑电信号分类任务相关通道上执行CWT,得到一维MI脑电信号的2DTFI。进一步通过ESRGAN进行数据增强,最终数据集由生成的数据集和原始数据集组成。最后,将数据集输入LAFFN进行分类。压缩前后的模型均能取得满意的分类性能。
与目前最先进的算法相比,所提出的算法也有一定的局限性。现有的先进算法如EEGNet直接将原始1D脑电图信号输入神经网络。该算法需要将原始MI脑电图信号通过CWT转换为2d - tfi,再输入到LAFFN中进行分类。这肯定比一些最先进的方法更费时。