3.脑纹识别ETST

论文名称	EEG temporal–spatial transformer for person identification
期刊	Scientific Reports 4.996/Q2
方法	首先，我们对EEG信号进行预处理,然后将其作为ETST的输入。在`TTE`部分，我们使用时域中的注意机制来计算样本中不同采样点之间的相关性，用于提取EEG的时域特征。由于个体之间的信道耦合关系具有个体特异性，我们设计了`STE`部分来计算信道的空间域注意力，以捕获不同信道信号之间的耦合关系，这使得模型能够基于特定耦合关系识别不同的个体，并且识别更稳定。最后，使用一个简单的全连通层来聚合全局信息并执行分类。
结论	我们将我们的模型与最先进的EEG识别方法以及传统神经网络方法(如卷积神经网络(CNN)、MLP)和传统机器学习方法(如支持向量机(SVM)、随机森林(RF)和线性判别分析(LDA))进行了比较。结果证明了我们提出的方法的优越性,同时通过消融实验验证了模块的有效性.
评价

::: tip EEG信号进行脑纹识别的依据？

个人可变性是个人识别的基础，现在已经有文章证明EEG信号具有很强的个人可变性，尤其是在alpha波中，其中个人可变性更为显著。
可重复持久性对于识别也非常重要，并且所使用的身份生物特征学要求重测可靠性。
EEG信号也非常具有安全性，这对于人员识别尤其重要，因为它需要专门的采集设备和放大器来收集，并且不能被受试者无意中泄漏或远程访问。 ::: — ::: tip 脑纹识别的应用场景?
基于EEG的识别在犯罪场景中更安全。用户不会被罪犯强迫进行身份验证，因为紧张会导致身份验证失败。
EEG信号是人类的一种内在特征，只有在大脑活动时才能产生，因此EEG信号自然具有活性检测功能。最后但并非最不重要的一点是，EEG是通用的，每个人都会产生EEG信号，除非某些病理学导致大脑结构损伤，从而阻止EEG信号的产生。 :::
主要贡献
提出了一种基于transformer encoder的神经网络模型ETST(EEG Temporal-Spatial Transformer)，它可以很好地提取EEG信号在时间和空间域的个体差异信息。
研究transformer在时间和空间域提取特征的能力。我们还探讨了不同位置编码对EEG transformer的影响。
数据增强方法用于补偿缺乏数据时变压器效果的恶化。

生物特征识别系统简介

当前基于EEG的生物特征识别系统大致分为两种方法:

一种是首先提取可区分特征，然后使用传统的机器学习方法进行分类
一种是使用端到端深度学习方法，完成特征提取和分类。

假设任务相关脑电可以分解为两部分，包括背景脑电(BEEG)和剩余脑电(REEG)。BEEG包含人的独特特征，而REEG由任务诱发的EEG和噪声组成。 ::: tip 为什么使用Transformer? 目前，Transformer在NLP和CV领域都显示了最好的结果。Transformer能够建模长期依赖关系，并且由于其并行计算特性，与RNN或LSTM相比计算速度更快。 Transformer在自然语言处理领域处于领先地位，然而，Transformer处理脑电信号的能力尚未被学者研究。因此，我们设计了基于自我注意机制的模型。 :::

总体框架图

与其他模型不同，我们的方法不需要额外提取EEG信号的人工特征，仅使用原始EEG数据进行识别任务。

我们在时间和空间域对网络进行建模，同时考虑了采样EEG信号在时间上的连续性和空间上不同通道之间的功能连通性。

该模型由两个主要部分组成，包括时间Transformer编码器(TTE)和空间Transformer编码器(STE)。

首先，我们对EEG信号进行预处理
然后将其作为ETST的输入。在TTE部分，我们使用时域中的注意机制来计算样本中不同采样点之间的相关性，用于提取EEG的时域特征。
由于个体之间的信道耦合关系具有个体特异性，我们设计了STE部分来计算信道的空间域注意力，以捕获不同信道信号之间的耦合关系，这使得模型能够基于特定耦合关系识别不同的个体，并且识别更稳定。
最后，使用一个简单的全连通层来聚合全局信息并执行分类。

预处理

使用0.5~42Hz带通滤波器对原始EEG信号进行滤波，以去除低频和高频噪声
使用独立分量分析(ICA)去除眼部和肌肉伪影。

每个样本的大小为T×C，其中T是采样点的数量，C是EEG通道的数量。对于每个样本，将采用每个通道随时间变化的以下z-score标准化： $\hat{x}_{t, c}=\frac{x_{t, c}-\bar{x}_{c}}{\sigma_{c}}$ 其中，$t，c$表示样本的采样点和通道，$\hat x_c$表示通道c上样本的平均值，$\sigma_{c}$表示通道$c$上样本的标准偏差。标准化后，样本每个通道上数据的平均值为0，标准偏差为1。

TTE时间变换编码器

每个样本中采样点之间的相关性表示EEG信号的时域信息，可以表示不同时间EEG信号之间的相互关系。受ViT的启发，我们使用多个变换块对EEG的时域信息进行编码，这可以考虑EEG时域的长期依赖性。每个Transformer编码器包含两部分：

多头注意(MHA)
多层感知器(MLP)

每个部分采用残差连接和层归一化(LN)，以提高模型的训练速度和鲁棒性。 $h_{l}^{t}=L N\left(M H A\left(z_{l-1}^{t}\right)+z_{l-1}^{t}\right) \quad l=1,2, \cdots, L$ $z_{l}^{t}=L N\left(M L P\left(h_{l}^{t}\right)+h_{l}^{t}\right) \quad l=1,2, \cdots, L$

STE空间变换编码器

EEG信号中的不同通道表示头皮上具有不同位置的电极，并且可以通过考虑不同通道之间的依赖性来计算不同大脑区域之间的功能连通性。为了保存空间位置信息，我们在输入中添加了空间域的位置编码，然后将结果作为STE的输入： $z_{0}^{s}=\operatorname{tran}\left(z_{L}^{t}\right)+E_{p o s}$ 其中，tran()表示是转置操作，$E_{p o s}∈ R^{C×T}$表示是一种位置编码。在本文中，我们使用固定位置的三角函数形式的位置编码 $\begin{aligned} \mathrm{PE}_{(\text {pos }, 2 \mathrm{i})} &=\sin \left(\frac{\operatorname{pos}}{10000^{2 \mathrm{i} / \mathrm{d}}}\right) \\ P E_{(\operatorname{pos}, 2 \mathrm{i}+1)} &=\cos \left(\frac{\operatorname{pos}}{10000^{2 \mathrm{i} / \mathrm{d}}}\right) \end{aligned}$

符号	含义
pos	表示通道位置
i	表示时间点
d	表示向量的维数

$z^s_0$表示添加了空间位置信息的表示。在STE中，我们使用与TTE类似的结构来学习EEG不同通道上的空间信息。过程方程表示为： $h_{l}^{s}=L N\left(M H A\left(z_{l-1}^{s}\right)+z_{l-1}^{s}\right) \quad l=1,2, \cdots, L$ $z_{l}^{s}=L N\left(M L P\left(h_{l}^{s}\right)+h_{l}^{s}\right) \quad l=1,2, \cdots, L$

分类层

ETST学习TTE中不同采样点上EEG数据的时域信息。在随后的STE中，ETST学习信道之间的空间信息。

因此，Trandformer Encoder层的输出产生包含时域和空域特征的更好表示。为了融合由表示学习到的全局信息并将其用于分类，使用仅具有一层的简单全连接层来获得最终分类输出，该最终分类输出使用交叉熵损失函数进行优化。 $L=-\frac{1}{N} \sum_{n=1}^{N} \sum_{c=1}^{C} y_{n}^{c} \log \left(\hat{y}_{n}^{c}\right)$

符号	含义
N	表示batch大小的数量
C	表示类别的数量
$y_{n}^{c}$	是相应类别的标签
$\hat y_{n}^{c}$	是相应类别的预测概率

训练

名称	数值/方法
模型评估	10倍交叉验证
优化器	adam optimizer
模型中的TTE层数	2
模型中的TTE每层头数	8
模型中的STE层数	2
模型中的STE每层头数	8
损失函数	交叉熵函数
学习率	0.00004
权重衰减	0.000001
batch大小	256

结果

精度比较

我们将我们的模型与最先进的EEG识别方法以及传统神经网络方法(如卷积神经网络(CNN)、MLP)和传统机器学习方法(如支持向量机(SVM)、随机森林(RF)和线性判别分析(LDA))进行了比较。

消融实验

位置编码是模型的重要组成部分。EEG信号包含时间和空间域中的位置信息。Transformer通过向输入物种添加位置编码来确保模型保留位置信息。我们分别研究了添加时域位置编码和空域位置编码对人识别的影响。

除了比较位置编码，我们还对ETSF的编码器部分进行了消融实验，并分别研究了去除TTE和STE时ETSF性能，以探索不同部分的作用。

结果表明，仅使用TTE层或仅使用STE层都使结果显著降低。此外，结果表明，TTE层的分类准确率略高于STE(IMA为75.19%，PHY为72.98%，而IMA为70.22%，PHY则为68.98%)。此外，可以表明，对于人员识别，时域信息比空域信息更重要。为了同时提供EEG时间和空间信息，我们的模型由TTE和SPE层组成，这可以显著提高模型的性能，从而实现最先进的效果。

不同重叠率下样本时长和精度的关系

我们试图通过增加滑动窗口的重叠率来增加样本数。使用80%的重叠率执行样本的数据增强，并比较不同大小训练集的ETST效果。图3示出了使用不同训练集训练后的模型的效果。从图中可以看出，1s长度的样本序列在相同重叠率下获得最佳结果，时间越长，分类精度越低。

当重叠率恒定时，增加样本长度会导致训练样本的减少，而5s分割长度的样本大小仅为1s的五分之一左右，这会导致ETST模型精度的降低。当重叠率增加到80%时，数据集的样本量增加了很多，大约两倍，数据集模型效果得到了改善，5s的精度上升到95.44%，略低于1s的精度，1s的精确度下降了约2%。这表明，在我们设计的实验中，基于变压器的模型的有效性恶化的原因是数据样本量不足。总的来说，通过长度划分的训练样本可以在交叉状态下实现我们模型的最新结果，只要它们具有足够的训练数据。