| || |-|-| |采样率|2500Hz| |电极种类|有源电极,这使得录音可以低噪音和高质量| |参考信道|FCz| |GND信道|FPz| |电极的阻抗|确保电极的阻抗在所有情况下都低于10k。在每次记录之间检查阻抗水平,以确保它保持在指示的低水平|
钢琴家和小提琴手在演奏钢琴三重奏作品期间的音频和脑电图信号的记录。在约瑟夫·海顿的《G大调钢琴三重奏》中,一位钢琴家、一位小提琴家和一位大提琴家的演奏过程中录制了录音,一个乐章持续了大约4分钟,总共录制了5次。
将NCH、OOT和MIS视为错误事件(ERR)。对于每个事件,我们存储开始时间、结束时间和事件类型。 下表是小提琴和钢琴录音的选段数量、持续时间和每种项目的试验次数。最后,钢琴的597个正确演奏试验(OK)和63个错误试验,小提琴的301个正确演奏试验(OK)和34个错误试验都是可用的。
为了对脑电图试验进行分类,对每个通道提取了三个不同的特征:瞬时频率、谱熵和Mel频率倒谱系数(MFCC)
定义了信号的主频谱峰值随时间变化的位置。采用Matlab的instfreq函数,该函数将瞬时频率估计为输入信号时频分布的第一条件谱矩
\[f_{\text {inst }}(t)=\frac{\int_0^{\infty} f P(t, f) d f}{\int_0^{\infty} P(t, f) d f}\]$P(t,f)$输入信号在$t$帧处的功率谱
熵描述了一个随机事件或随机变量的平均信息。数学上,这个参数定义为
\[H=-\sum_{i=1}^N p\left(a_i\right) \log _2 p\left(a_i\right)\]$p(a_i)$表示离散随机变量的概率 具体地说,我们利用了熵的谱版本。这个特征可以很容易地计算使用Matlab的函数pentropy,方便地使用 $P(t,m)$归一化时频功率谱图
\(H(t)=-\sum_{m=1}^N P(t, m) \log _2 P(t, m)\) \(P(t, m)=\frac{S(t, m)}{\sum_{k=1}^{N_F} S(t, k)}\)
音频和音乐表征最有效的工具之一,这些都是在关键带宽上定义的,关键带宽是围绕一个中心频率的带宽,人类听力系统需要分辨不同的音调。这个带宽可以用下面的表达式定义:
\[B W_{\text {critical }}=25+75\left[1+1.4\left(\frac{f}{1000}\right)^2\right]^{0.69}\]梅尔滤波器将这些关键频带考虑在内,以定义滤波器组,其中单个滤波器的带宽以对数增长。
\[h_m(k)=\left\{\begin{array}{lc}0 & k \leq f(m-1) \\ \frac{k-f(m-1)}{f(m)-f(m-1)} & f(m-1) \leq k \leq f(m) \\ \frac{f(m+1)-k}{f(m+1)-f(m)} & f(m) \leq k \leq f(m+1) \\ 0 & k>f(m+1)\end{array}\right.\]此外,每个过滤器都从前一个过滤器的峰值位置开始。
具体来说,使用以下转换将赫兹单位转换为梅尔单位
\(f_{M E L}=2595 \log _{10}\left(1+\frac{f(H z)}{700}\right)\) 为了应用这些方程,滤波器的中心和极限被四舍五入以与DFT样本相一致
采用一种长短期记忆(LSTM)神经网络对脑电信号进行分类。这种神经网络,其节点控制信息流,特别用于时间序列的分类,因为它们利用了信号中的长期依赖关系。所绘制的矩阵的每一行都是bi-LSTM神经网络的一个向量输入,与语音识别框架类似,对音乐的正确解释,无论是播放还是收听,都需要一些先前和后验上下文,这使得双向lstm架构完美地适应了我们的情况。这种LSTM体系结构包含可以同时在向前和向后时间方向上进行训练的层,它提供了一个更类似于音乐家用来解释音乐的信号分析上下文。
忘记不相关的信息。
执行计算以存储新信息的相关部分。
使用前面的两个步骤有选择地更新其内部状态。
生成输出。
| 分类精度|| |-|-| |F-score|78.13%| |recall|75.76%| |precision|80.65%|
我们认为,这是由于小提琴中错误类型的多样性,以及对这些错误的感知具有更大的主观性。这个问题的例子是走调音符错误事件,在某些情况下,即使在脱机标注过程中也很难察觉。
本实验中LSTM和GRU架构的准确率分别为60.58%和60.59%,低于Bi-LSTM。
\(f_{\text {inst }}(t)=\frac{\int_0^{\infty} f P(t, f) d f}{\int_0^{\infty} P(t, f) d f}\) \(H=-\sum_{i=1}^N p\left(a_i\right) \log _2 p\left(a_i\right)\) \(H(t)=-\sum_{m=1}^N P(t, m) \log _2 P(t, m)\) \(P(t, m)=\frac{S(t, m)}{\sum_{k=1}^{N_F} S(t, k)}\) \(B W_{\text {critical }}=25+75\left[1+1.4\left(\frac{f}{1000}\right)^2\right]^{0.69}\) \(h_m(k)=\left\{\begin{array}{lc}0 & k \leq f(m-1) \\ \frac{k-f(m-1)}{f(m)-f(m-1)} & f(m-1) \leq k \leq f(m) \\ \frac{f(m+1)-k}{f(m+1)-f(m)} & f(m) \leq k \leq f(m+1) \\ 0 & k>f(m+1)\end{array}\right.\) \(f_{M E L}=2595 \log _{10}\left(1+\frac{f(H z)}{700}\right)\)