除非时间序列(Time series)是平稳的,否则不能建立一个时间序列模型。在很多案例中时间平稳条件常常是不满足的,所以首先要做的就是让时间序列变得平稳,然后尝试使用随机模型预测这个时间序列。有很多方法来平稳数据,比如消除长期趋势,差分化。
1. 均值 ,是与时间t 无关的常数。下图(左)满足平稳序列的条件,下图(右)很明显具有时间依赖。
2. 方差 ,是与时间t 无关的常数。这个特性叫做方差齐性。下图显示了什么是方差对齐,什么不是方差对齐。(注意右手边途中的不同分布。)
3. 协方差 ,只与时期间隔k有关,与时间t 无关的常数。如下图(右),可以注意到随着时间的增加,曲线变得越来越近。因此红色序列的协方差并不是恒定的。
将一个不平稳的时间序列转化为平稳的时间序列。
一些非平稳的时间序列往往表现出共同的变化趋势,而这些时间序列本身不一定有直接的关联关系,这时对这些数据进行回归,尽管具有较高的R²,但其结果没有任何实际意义。这种现场被称之为虚假回归或伪回归。
为了避免这种伪回归,通常会引入作为趋势变量的时间,这样包含有时间趋势变量的回归,可以消除这种趋势性影响。这样消除的是确定性的趋势变量,随机性的趋势性变量需用差分消除。
x(t) = (mean + trend * t) + error |
差分后是对序列的差分的结果建立模型而不是真正的序列。例如:
x(t) – x(t-1) = ARMA (p , q) |
这个差分也是ARIMA的部分。现在我们有3个参数了:
p:AR d:I q:MA |
Box-Cox变换是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。做Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。 也就是说,在实际使用数据分析的时候,想对数据做正态性假设,但是数据往往是不是正态分布的,这个时候考虑Box-Cox变换。
使用ACF(自相关函数)和PACF(偏自相关函数)找到参数p,q。由于此步骤需要数据分析师人工判断,且可能有多组参数,需一一对比检验;因此ARIMA模型自动化很困难。
ACF / PACF条形图是衰减的指数型或正负相间的正弦型波动,称之为拖尾;ACF / PACF在某一个Lag之后很小,且在置信区间内,称之为截尾。
用ACF和PACF判断ARIMA模型参数(不一定严格)
模型 | AP(p) | MA(q) | ARMA(p,q) |
---|---|---|---|
PACF条形图 | 在第p个条(Lag)后截尾 | 拖尾 | 在头p个条没有固定规律,其后拖尾 |
ACF条形图 | 拖尾 | 在第q个条后截尾 | 在头q个条没有固定规律,其后拖尾 |
如果ACF和PACF至少一个不是指数形式或正弦形式拖尾,那么该序列不是平稳序列。如果ACF和PACF没有任何模型,而且数值都很小,那么这个序列可能就是一些互相独立的无关随机变量,常用来检测残差是否随机。
评价模型主要看预测后的预测值和实际值的残差。
如果ACF和PACF没有任何模型,而且数值都很小,那么这个序列可能就是一些互相独立的无关随机变量,详见4.
德宾-沃森(Durbin-Watson)检验。德宾-沃森检验,简称D-W检验,是目前检验自相关性最常用的方法,但它只使用于检验一阶自相关性。因为自相关系数ρ的值介于-1和1之间,所以 0≤DW≤4。并且DW=0=>ρ=1 即存在正自相关性 DW=4<=>ρ=-1 即存在负自相关性 DW=2<=>ρ=0 即不存在(一阶)自相关性
因此,当DW值显著的接近于0或4时,则存在自相关性,而接近于2时,则不存在(一阶)自相关性。这样只要知道DW统计量的概率分布,在给定的显著水平下,根据临界值的位置就可以对原假设H0进行检验。
检验残差是否是正态分布,常用方法有QQplot。
1. MSE、MAPE
2. 准确率
3. AIC法则
附:R中ARIMA的一般流程
http://blog.csdn.net/u010414589/article/details/49622625
https://www.otexts.org/fpp/8/7
http://wenku.baidu.com/link?url=b34APzBjz-cGLoxsG4-nvbwKy7FLgPk5n4nzC9w-pWQP7pc4MycpyQZil4Oe5I0285cMGz1WX79Q4aExF8Ft-n0okdqgNs4DhkrssIWZ2zq
新闻热点
疑难解答