Autoformer: 基于深度分解架构和自相关机制的长期序列预测模型

本文介绍本组时间序列预测方向的最新工作：Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term...

PaperWeekly

5418人浏览 · 2021-07-06 17:32:20

PaperWeekly · 2021-07-06 17:32:20 发布

本文介绍本组时间序列预测方向的最新工作：Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting。

论文链接：

https://arxiv.org/abs/2106.13008　

论文作者：

吴海旭，徐介晖，王建民，龙明盛

引言

时间序列预测已经被广泛用于能源、交通、气象等众多领域。在实际应用中，尽可能延长预测时效是一个迫切的需求，如能源、交通的长期规划，和气象灾害的早期预警等。

因此，我们探索了长期时间序列预测问题：待预测的序列长度远远大于输入长度，即基于有限的信息预测更长远的未来。上述需求使得此预测问题极具挑战性，对于模型的预测能力及计算效率有着很强的要求。

分析

之前基于Transformer的时间序列预测模型，通过自注意力机制（self-attention）来捕捉时刻间的依赖，在时序预测上取得了一些进展。但是在长期序列预测中，仍存在不足：

长序列中的复杂时间模式使得注意力机制难以发现可靠的时序依赖。
基于Transformer的模型不得不使用稀疏形式的注意力机制来应对二次复杂度的问题，但造成了信息利用的瓶颈。

为突破上述问题，我们全面革新了Transformer，并提出了名为Autoformer的模型，主要包含以下创新：

突破将序列分解作为预处理的传统方法，提出深度分解架构（Decomposition Architecture），能够从复杂时间模式中分解出可预测性更强的组分。
基于随机过程理论，提出自相关机制（Auto-Correlation Mechanism），代替点向连接的注意力机制，实现序列级（series-wise）连接和复杂度，打破信息利用瓶颈。

在长期预测问题中，Autoformer在能源、交通、经济、气象、疾病五大时序领域大幅超越之前SOTA，实现38% 的相对效果提升。

Autoformer

我们提出的Autoformer全面革新Transformer为深度分解架构，包括内部的序列分解单元、自相关机制以及对应的编-解码器。

深度分解架构

图1: Autoformer架构。

时间序列分解是指将时间序列分解为几个组分，每个组分表示一类潜在的时间模式，如周期项（seasonal），趋势项（trend-cyclical）。由于预测问题中未来的不可知性，通常先对过去序列进行分解，再分别预测。但这会造成预测结果受限于分解效果，并且忽视了未来各个组分之间的相互作用。

我们提出深度分解架构，将序列分解作为Autoformer的一个内部单元，嵌入到编-解码器中。在预测过程中，模型交替进行预测结果优化和序列分解，即从隐变量中逐步分离趋势项与周期项，实现渐进式分解。

序列分解单元（series decomposition block）基于滑动平均思想，平滑周期项、突出趋势项：其中，为待分解的隐变量，分别为趋势项和周期项，我们将上述公式记为。我们将上述序列分解单元嵌入Autoformer层间。

编码器： 在Encoder部分，我们逐步消除趋势项（这部分会在Deocder中通过累积得到），得到周期项，。而基于这种周期性，我们设计自相关机制，聚合不同周期的相似子过程，实现信息聚合：

解码器： 在Decoder部分，我们对趋势项与周期项分别建模。其中，对于周期项，自相关机制利用序列的周期性质，聚合不同周期中具有相似过程的子序列；对于趋势项，我们使用累积的方式，逐步从预测的隐变量中提取出趋势信息（最后一行）：

基于上述渐进式分解架构，模型可以在预测过程中逐步分解隐变量，并通过自相关机制、累积的方式分别得到周期、趋势组分的预测结果，实现分解、预测结果优化的交替进行、相互促进。

自相关机制

我们提出自相关机制来实现高效的序列级连接，从而扩展信息效用。观察到，不同周期的相似相位之间通常表现出相似的子过程，我们利用这种序列固有的周期性来设计自相关机制，其中，包含基于周期的依赖发现（Period-based dependencies）和时延信息聚合（Time delay aggregation）。

基于周期的依赖发现： 基于随机过程理论，对于实离散时间过程，我们可以如下计算其自相关系数：

其中，自相关系数表示序列与它的延迟之间的相似性。我们将这种时延相似性看作未归一化的周期估计的置信度，即周期长度为的置信度为。

图2: 时延信息聚合。

时延信息聚合： 为了实现序列级连接，我们需要将相似的子序列信息进行聚合。我们这里依据估计出的周期长度，首先使用操作进行信息对齐，再进行信息聚合，我们这里依然使用query、key、value的形式，从而可以无缝替代自注意力机制。

这里，我们挑选最有可能的个周期长度，用于避免挑选到无关、甚至相反的相位。在Autoformer中，我们使用多头（multi-head）版本（图3）。

图3: 多头自相关机制。

高效计算： 基于Wiener-Khinchin理论，自相关系数可以使用快速傅立叶变换（FFT）得到，计算过程（图3）如下：

其中，和分别表示FFT和其逆变换。因此，自相关机制的复杂度为。

对比分析： 相比于之前的注意力机制或者稀疏注意力机制，自注意力机制（Auto-Correlation Mechanism）实现了序列级的高效连接，从而可以更好的进行信息聚合，打破了信息利用瓶颈。

图4: 自相关机制与注意力机制对比。

实验

我们在6个数据集上进行了模型验证，涵盖能源、交通、经济、气象、疾病五大领域。更多基准模型和结果请见论文。

表1:实验结果，输入长度为96（ILI数据集为24），表左侧为输出长度属于{96,192,336,720}（ILI数据集为{24,36,48,60}）。

Autoformer在所有数据集、各种输入-输出长度的设置下，取得了最优（SOTA）结果。

数据集	相比之前SOTA，MSE提升
ETT	74%（1.334 0.351）
Electricity	24%（0.280 0.213）
Exchange	64%（1.357 0.488）
Traffic	14%（0.733 0.634）
Weather	26%（0.455 0.335）
ILI	30%（4.583 3.227）