ARIMA 算法解析，一个通俗的解释

ARIMA算法是时序算法的经典算法。网上有很多博客，笔者认为都比较数学化，不是那么让初学者一读就能懂得，换句话说，不是很通俗。本篇博客是基于英文博客来组织的，不是直接翻译，但代码，原始数据都来自这篇英文博客，所以说是翻译而来的。1. 背景ARIMA 算法的本质就是把数据中带有趋势的(trend)的，带有季节性的(seasonal)的, 带有业务场景周期性(domain cycle)的规律先找出来，

juhanishen

20127人浏览 · 2021-05-27 15:01:17

juhanishen · 2021-05-27 15:01:17 发布

本系列是时序算法ARIMA的第一部分。

ARIMA算法是时序算法的经典算法。网上有很多博客，笔者认为都比较数学化，不是那么让初学者一读就能懂得，换句话说，不是很通俗。本篇博客是基于英文博客来组织的，不是直接翻译，但代码，原始数据都来自这篇英文博客，所以说是翻译而来的。

1. 背景

ARIMA 算法的本质就是把数据中带有趋势的(trend)的，带有季节性的(seasonal)的, 带有业务场景周期性(domain cycle)的规律先找出来，一层一层将有规律的信息从数据中抽出来，最后的数据就剩下没有规律的，或叫噪声，理想的时候是白噪声。本文的代码是python写的，基本上都是原版英文博客中来的。如果先自己实现代码，可以下载下面的两个数据集。

1. Tractor-Sales.csv: http://www.ucanalytics.com/blogs/wp-content/uploads/2015/06/Tractor-Sales.csv
2. dummy-sales.csv: http://ucanalytics.com/blogs/wp-content/uploads/2017/08/dummy-sales.csv

本文是用jupyter工具来调试的，怎样安装jupyter工具的博客在这里。

2. 例子和代码

我们先以Tractor-sales.csv 为数据源，来开始将有规律的信息从数据中一层一层剥离出来。一般而言，有规律的数据指前述提到过的三种情况，

带有趋势的 (trend)
带有季节性的 (seasonal)
带有业务场景周期性的 (cycle)

那么我们拿到数据后，先对Tractor-sales.csv的字段处理一下，原来月和年份在一起，我们将他们分隔开来，在以下的篇幅中，读者自然明白为什么要把月和年份分隔开来，主要是观察季节性的规律。

我们先了解数据，我们有以下代码：

# 导入必要的packages 或模块
import warnings
import itertools

import pandas as pd
import numpy as np

import statsmodels.api as sm
import statsmodels.tsa.api as smt
import statsmodels.formula.api as smf

import matplotlib.pyplot as plt
%matplotlib inline

plt.style.use('bmh')

这一步，主要是导入python的库和模块。

# 列出前5行数据，看看表头或字段
sales_data = pd.read_csv("Tractor-Sales.csv")
sales_data.head(5)

现在，我们开始导入原始数据，并看它的表头和前5行数据，我们看到表头或字段有两个，一个是Month-Year，一个是Number of Tractor Sold, 这两个字段名都不尽人意。下一步，我们有特征值工程，就是把第一个字段拆分。第二个字段名会被改名。

# 改字段，让年和月份分开，先建立自然月份
dates = pd.date_range(start='2003-01-01', freq='MS', periods=len(sales_data))

先创建dates，大家在自己的jupyter里，可以输出dates，看看到底是怎样的值，这里主要是获取2003年1月1日的值，dates的每一个元素是date类型。频率是每一个月，长度是原始数据长度。

import calendar
# 增加字段month
sales_data['Month'] = dates.month
# 新增加的字段month是参照月份的英文缩写
sales_data['Month'] = sales_data['Month'].apply(lambda x: calendar.month_abbr[x])
# 增加字段年
sales_data['Year'] = dates.year
sales_data.head(5)

从这个操作可以看出，我们就是新建立了两个字段，一个是月份，也就是Month，一个是年，也就是Year。那么接下来就可以删去我们不需要的Month-Year字段了。

# 现在可以删除旧的字段
sales_data.drop(['Month-Year'], axis=1, inplace=True)
# 改名数据字段
sales_data.rename(columns={'Number of Tractor Sold':'Tractor-Sales'}, inplace=True)
sales_data = sales_data[['Month', 'Year', 'Tractor-Sales']]

这一个步，我们删除了不需要的字段和改了另一个字段的名称。

# 建立数据索引
sales_data.set_index(dates, inplace=True)

接下来，就是建立索引。

sales_ts = sales_data['Tractor-Sales']

这一步，把要研究的数据，就是要画图了解的数据单独抽取出来，建立一个列，主要是为了绘图。

# 画图
plt.figure(figsize=(10, 5))
plt.plot(sales_ts)
plt.xlabel('Years')
plt.ylabel('Tractor Sales')

现在我们看到了销售数据的第一张图。从这张图，我们直接地看出，每年的销售数是增长的，但是螺旋形增长的。说明也是有季节型的。那么接下来，让我们把这些规律先剥去，看看剩下来的数据表达什么意思。如果是噪声，就说明我们剥去了所有有规律的因素。

让我们进一步了解数据，

# 2x2的图展示，第一行两张图，第二行两张图
fig, axes = plt.subplots(2, 2, sharey=False, sharex=False)
fig.set_figwidth(14)
fig.set_figheight(8)

# 第一行，第一列的图先是原始数据，然后是将4个月的销售数据取平均，作为一个点，然后绘图
axes[0][0].plot(sales_ts.index, sales_ts, label='Original')
axes[0][0].plot(sales_ts.index, sales_ts.rolling(window=4).mean(), label='4-Months Rolling Mean')
axes[0][0].set_xlabel("Years")
axes[0][0].set_ylabel("Number of Tractor's Sold")
axes[0][0].set_title("4-Months Moving Average")
axes[0][0].legend(loc='best')

# 第一行，第二列的图先是原始数据，然后是将6个月的销售数据取平均，作为一个点，然后绘图
axes[0][1].plot(sales_ts.index, sales_ts, label='Original')
axes[0][1].plot(sales_ts.index, sales_ts.rolling(window=6).mean(), label='6-Months Rolling Mean')
axes[0][1].set_xlabel("Years")
axes[0][1].set_ylabel("Number of Tractor's Sold")
axes[0][1].set_title("6-Months Moving Average")
axes[0][1].legend(loc='best')

# 第二行，第一列的图先是原始数据，然后是将8个月的销售数据取平均值，作为一个点，然后绘图
axes[1][0].plot(sales_ts.index, sales_ts, label='Original')
axes[1][0].plot(sales_ts.index, sales_ts.rolling(window=8).mean(), label='8-Months Rolling Mean')
axes[1][0].set_xlabel("Years")
axes[1][0].set_ylabel("Number of Tractor's Sold")
axes[1][0].set_title("8-Months Moving Average")
axes[1][0].legend(loc='best')

# 第二行，第二列的图先是原始数据，然后是将12个月的销售数据取平均值，作为一个点，然后绘图
axes[1][1].plot(sales_ts.index, sales_ts, label='Original')
axes[1][1].plot(sales_ts.index, sales_ts.rolling(window=12).mean(), label='12-Months Rolling Mean')
axes[1][1].set_xlabel("Years")
axes[1][1].set_ylabel("Number of Tractor's Sold")
axes[1][1].set_title("12-Months Moving Average")
axes[1][1].legend(loc='best')

plt.tight_layout()
plt.show()

代码的含义就是按照4个月，6个月，8个月，12个月取移动平均，然后绘画，和原始数据比较，我们的愿望是进一步了解数据。图绘出后，如下显示：

从这四张图，我们看出按12个月移动平均绘图，正好是一条直线，我们从另外三张图的红线可以看到，4个月，6个月，8个月的移动平均都是凹凸的，就像一条穿了皱褶的裤子一样，而只有12个月的移动平均像是裤子熨过了一样。

通过这一步的数据描述，我们进一步了解了数据，就是数据有趋势的(trend)，那么我们直接试试库函数decompose，偷个懒看看，我们能不能把数据的规律性的因素都剥离出来。

decomposition = sm.tsa.seasonal_decompose(sales_ts, model='multiplicative')

fig = decomposition.plot()
fig.set_figwidth(12)
fig.set_figheight(8)
fig.suptitle('Decomposition of multiplicative time series')
plt.show()

让我们看看数据分解后的情况，

从分解的图，我们看出，这个数据有趋势的(trend), 有季节性的(Seasonal), 接下来的就是渣渣了(residue)，这些渣渣就是噪声了。所以分解完成。分解的函数有几个，我们选择一个作为解释概念。具体可以看看statsmodels的api的链接。

至此，我们对数据有了很好的了解。（第一部分完，待续）

3. 数学原理

待续

4. 其他

待续

5. 参考文献

1. http://ucanalytics.com/blogs/wp-content/uploads/2017/08/ARIMA-TimeSeries-Analysis-of-Tractor-Sales.html

2. https://www.statsmodels.org/stable/api.html

6. 编辑历史

1. 本系列第一部分创建于 2021年5月27日。

点击阅读全文

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

DeepSeek大模型Prompt工程深度实践（开发者空间Notebook版）

华为开发者空间

祝贺！华为云GES完成中国信通院图数据库产品测试

华为开发者空间

基于DeepSeek+Dify构建财务报表分析模型

华为开发者空间

所有评论(0)

juhanishen

@juhanishen

已为社区贡献3条内容

热门标签

运营活动

活动日历查看更多

直播时间 2025-02-26 16:00:00

回放中

华为云 x DeepSeek：AI驱动云上应用创新

华为云开发者联盟

直播时间 2025-01-08 16:30:00

回放中

DTT年度收官盛典：华为开发者空间大咖汇，共探云端开发创新

华为云开发者联盟

直播时间 2024-12-11 16:30:00

回放中

华为云数字人，助力行业数字化业务创新

华为云开发者联盟

直播时间 2024-11-27 16:30:00

回放中

企业数据治理一站式解决方案及应用实践

华为云开发者联盟

直播时间 2024-11-21 16:30:00

回放中

轻松构建AIoT智能场景应用

华为云开发者联盟

ARIMA 算法解析，一个通俗的解释

juhanishen

1. 背景

2. 例子和代码

3. 数学原理

4. 其他

5. 参考文献

6. 编辑历史

所有评论(0)

juhanishen

登录社区云

华为开发者空间