农田水分在土壤—作物—大气连续体内通过降水、入渗、蒸发、蒸腾等形式周而复始地循环其过程十分复杂。需要探究各个检测量之间的内在机理.
将2012年至2022年的土壤蒸发量进行可视化, 如下图所示.
将2012年至2022年的降水量、叶面积指数、植被指数进行可视化, 如下图所示.
由于数据记录部门及周期不同,不同数据集的数据量不尽相同,为了使各变量的数据集具有可用性,对数据集中的缺失值做相应处理。本文对这些数据集中的缺失值处理方法主要包括以下三种:
去极值就是排除一些极端值的干扰,在做回归分析的时候,因为过大或过小的数据可能会影响到分析结果,离群值会严重影响因子和收益率之间的相关性估计结果,因此需要对那些离群值进行处理。而由于各变量的单位和数量级并不相同,为了便于构建多变量回归模型,在去极值后可将各变量的数据进行标准化。
3σ法源于最经典的统计学3σ原则,即正态分布的数分布在(μ-3σ,μ+3σ)中的概率为99.73%,在3σ外的概率是0.27%,其中μ代表平均值,σ是标准差,3σ去极值法其实就是把离平均值太远的值算作极端值,距离超过3倍标准差以上的就是远。
标准分数(standard score)也叫 z分数(z-score),是将变量值与平均数的差再除以标准差的过程。在变量的原始值低于平均值时 Z 值为负数,反之则为正数。 本文应用Z-score归一化来预处理数据添加随机噪声以防止过度拟合,如以下公式所示: \(\mathrm{X}^{*}=\frac{\mathrm{X}-\mu}{\delta}+\alpha \mathrm{N}\)
符号 | 含义 |
---|---|
$X$ | 表示原始数据 |
$X^{*}$ | 表示预处理后的数据 |
μ | 表示数据的平均值 |
δ | 表示标准偏差 |
N | 表示随机噪声 |
α | 控制随机噪声的百分比 |
在使用很多时间序列模型的时候,如 ARMA、ARIMA,都会要求时间序列是平稳的,所以一般在研究一段时间序列的时候,第一步都需要进行平稳性检验,除了用肉眼检测的方法,另外比较常用的严格的统计检验方法就是ADF检验,也叫做单位根检验。
简单点来说, ADF检验就是判断序列是否存在单位根:如果序列平稳,就不存在单位根;否则,就会存在单位根。所以,ADF检验的 H0 假设就是存在单位根,如果得到的显著性检验统计量小于三个置信度(10%,5%,1%),则对应有(90%,95,99%)的把握来拒绝原假设。
GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。和LSTM(Long-Short Term Memory)一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。相比LSTM,使用GRU能够达到相当的效果,并且相比之下更容易进行训练,能够很大程度上提高训练效率,因此很多时候会更倾向于使用GRU。
GRU的输入输出结构与普通的RNN是一样的, 其中的内部思想与LSTM相似。有一个当前的输入$x^t$,和上一个节点传递下来的隐状态$h^{t-1}$,这个隐状态包含了之前节点的相关信息。结合$x^t$和$h^{t-1}$,GRU会得到当前隐藏节点的输出$y^t$和传递给下一个节点的隐状态$h^{t}$。
首先,我们先通过上一个传输下来的状态$h^{t-1}$和当前节点的输入$x^t$来获取两个门控状态。如下图所示,其中$r$控制重置的门控(reset gate),$z$为控制更新的门控(update gate) 得到门控信号之后,首先使用重置门控来得到"重置"之后的数据$h^{t-1'}$,再将$h^{t-1'}$与输入$x^t$进行拼接,再通过一个tanh激活函数来将数据放缩到-1~1的范围内。即得到如下图所示的$h^{‘}$。 这里的$h^{‘}$主要是包含了当前输入的$x^t$数据。有针对性地对$h^{‘}$添加到当前的隐藏状态,相当于"记忆了当前时刻的状态"。
训练轮次epoch=300 , adam优化器, MSE损失函数, RELU激活函数
平均绝对误差MAE ( mean absolute error )是绝对误差的平均值,它其实是更一般形式的误差平均值。 因为如果误差是[-1,0,1].平均值就是0,但这并不意味之系统不存在误差,只是正负相互抵消了,因此我们要加上绝对值。它的定义表达式 \(\mathrm{MAE}=\frac{\sum_{i=1}^{n}\left|y_{i}-x_{i}\right|}{n}\) 换成更直接的表达式:
\(M A E=\frac{1}{n} \sum_{k=1}^{n} \mid\left(\right. actual _{1}- predicted \left._{1}\right)|+\cdots+|\left(\right. actual _{n}- predicted \left._{n}\right) \mid\) 而均方根误差RMSE ( root mean squared error ),也有资料称为RMSD,也可以测量误差的平均大小,它是预测值和实际观测之间平方差异平均值的平方根。他的定义为:
\(\mathrm{RMSD}=\sqrt{\frac{\sum_{t=1}^{T}\left(\hat{y}_{t}-y_{t}\right)^{2}}{T}}\) 换成更直接的表达式: \(R M S E=\sqrt{\frac{\sum_{k=1}^{n}\left(\text { actual }_{1}-\text { predicted }_{1}\right)^{2}+\cdots+\left(\text { actual }_{n}-\text { predicted }_{n}\right)^{2}}{n}}\)
| 土壤深度 | RMSE | MAE | | – | – | – | | 一月10cm土壤湿度 | 0.00016791602 | 0.00014801025 | | 一月40cm土壤湿度 | 0.0014447744 | 0.0011886597 | | 一月100cm土壤湿度 | 0.0051352843 | 0.0040065767 | | 一月200cm土壤湿度 | 0.00016791602 | 0.00014801025 |
存在过拟合现象, 预测效果不佳, 推测是由于训练轮次太多, 每层配置的GRUCell过多.
1.通过ARIMA时间序列预测降水量、蒸发量、NDVI等,需要注意季节性,使用季节性时间序列预测(SARIMA,见代码),使用时间序列预测前需要使用平稳性检验。检验方法有很多种,包括ADF、KPSS、P-P等。这里用ADF检验和KPSS检验。 另外,Durbin-Watson 统计是计量经济学分析中最常用的自相关度量。该值接近2,则可以认为序列不存在一阶相关性。(详见代码) 2.LAI是周期函数,计算未来月份的LAI,进一步计算未来月份的ICmax 3.计算未来月份的ICstore(t) 4.根据未来月份的ICstore(t)和预测的降水量和蒸发量,推导含水量变化 通过含水量变化推导湿度变化
ARIMA模型(Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型,时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是"自回归",p为自回归项数;MA为"滑动平均",q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。 \(A R I M A(p, d, q)\left\{\begin{array}{l}A R(p)-p阶自回归 \\ M A(q)-q阶滑动平均 \\ d \text { 为使之成平稳序列的差分次数 }\end{array}\right.\)
自回归只适用于预测与自身前期相关的现象,数学模型表达式如下: \(y_{t}=\mu+\sum_{i=1}^{p} r_{i} y_{t-i}+\epsilon_{t}\)
符号 | 含义 |
---|---|
$y_{t}$ | 当前值,是常数项 |
$p$ | 阶数 |
$r_i$ | 自相关系数 |
$\epsilon _{t}$ | 误差, 符合正态分布 |
该模型反映了在t时刻的目标值值与前t-1~p个目标值之前存在着一个线性关系,即: \(y_{t} \sim r_{1} y_{t-1}+r_{2} y_{t-2}+\ldots+r_{p} y_{t-p}\)
移动平均模型关注的是自回归模型中的误差项的累加,数学模型表达式如下: \(y_{t}=\mu+\epsilon_{t}+\sum_{i=1}^{q} \theta_{i} \epsilon_{t-i}\) 该模型反映了在t时刻的目标值值与前t-1~p个误差值之前存在着一个线性关系,即: \(y_{t} \sim \theta_{1} \varepsilon_{t-1}+\theta_{2} \varepsilon_{t-2}+\ldots+\theta_{p} \varepsilon_{t-p}\)
该模型描述的是自回归与移动平均的结合,具体数学模型如下: \(Y_{t}=\beta_{0}+\beta_{1} Y_{t-1}+\beta_{2} Y_{t-2}+\cdots+\beta_{p} Y_{t-p}+\epsilon_{t}+\alpha_{1} \epsilon_{t-1}+\alpha_{2} \epsilon_{t-2}+\cdots+\alpha_{q} \epsilon_{t-q}\)
基本原理:将数据通过差分转化为平稳数据,再将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。
季节性整合自回归移动平均模型,将季节差分与ARIMA模型相结合的SARIMA模型用于具有周期性特征的时间序列数据建模。应用于包含趋势和季节性的单变量数据,SARIMA由趋势和季节要素组成的序列构成。
德宾-沃森检验,简称D-W检验,是目前检验自相关性最常用的方法,但它只适用于检验一阶自相关性。引入自相关回归系数ρ,当ρ=0表示无自相关性,ρ>0表示存在正自相关性,ρ<0表示存在负自相关性. 因为自相关系数ρ的值介于-1和1之间,所以 0≤DW≤4。 \(D W=\frac{\sum_{t=2}^{n}\left(e_{t}-e_{t-1}\right)^{2}}{\sum_{t=2}^{n} e_{t}^{2}} \underset{n \text { 较大 }}{\approx} 2\left[1-\frac{\sum_{t=2}^{n} e_{t} e_{t-1}}{\sum_{t=2}^{n} e_{t}^{2}}\right] = 2(1- \hat{\rho})\) \(\hat{\rho}=\sum_{t=2}^{n} e_{t} e_{t-1} / \sum_{t=2}^{n} e_{t}^{2}\)
参数 | 含义 |
---|---|
$DW=0 < = > ρ=1$ | 存在正自相关性 |
$DW=4 < = > ρ=-1$ | 存在负自相关性 |
$DW=2 < = > ρ=0$ | 不存在(一阶)自相关性 |
预测对象 | DW检验值 |
---|---|
降水量 | 1.9840 |
蒸发量 | 2.0067 |
NDVI | 2.0774 |
QQ plot图的全称是Quantile-Quantile Plot,即分位数-分位数图。它们本质上就是做两组数据的比较,判断它们是否基本一致。
以样本重复性散点图为例,如果某个基因的表达量在样本C1和C2两个生物学重复中相同或相近,那么这个基因在这个散点图中X和Y轴坐标应该是相同或相近的,即这个点应该位于这个图形的45°对角线上。
如果大部分点位于对角线上,说明这两组值基本一致,即两个样本的重复性良好。
在散点图的左下角是显著性低的位点,即确定与性状不关联的位点,这些位点的P value观测值应该与期望值一致。而图中这些点的确位于对角线上,说明分析模型是合理的。而在图形的右上角则是显著性较高的位点,是潜在与性状相关的候选位点。这些点位于对角线的上方,即位点的P value观测值超过了期望值,说明这些位点的效应超过了随机效应,进而说明这些位点是与性状显著相关的。
SARIMA的结果优于GRU, 故本文对于第二题选择的方法为SARIMA 填表如下: 由D-W值的大小确定自相关性: