详细解释:
文章提出了卷积注意力机制(convolutional self-attention),该机制利用因果卷积(casual convolutional)产生Q和K(与原transformer模型中的Q、K相同),从而更好地将局部上下文整合到注意机制中。在此基础上,文章提出了内存开销仅为O(L(log L)2)的LogSparse Transformer,在内存受限的条件下,能够对具有较细粒度和较强长期相关性的时间序列的预测精度。最后,文章通过在合成数据和现实数据集上的实验表明,该模型要比现有的模型效果更好。
|