位置编码的原理详解

本文最后更新于 2024年7月31日下午3点14分

位置编码的原理和细节

位置编码positional encoding就是在tokens中加入位置信息，因为对文本来说，相同单词在不同位置的含义不同，给每个单词在文本中的位置信息对之后的模型训练很重要。

位置编码可以分为绝对位置编码和相对位置编码。

绝对用这编码就是让每个token存储它的绝对位置的信息。绝对位置编码最常见的有三角函数位置编码。是google的论文‘attention is all you need’当中提出来的
相对位置编码考虑的是token之间的相对位置在计算attention的时候考虑当前位置与被attention的位置的相对距离。相对位置编码起源于google的论文’self attention with relative position representations’, 很经典的有旋转位置编码RoPE.

三角函数式位置编码

这里介绍的是论文’attention is all you need’中的位置编码方法：
假设一个句子，经过分词得到L个token，每个token经过embedding得到长度为 $1\times K$的向量，则该句子向量化得到大小为$L\times K$的张量。
位置编码公式如下：

其中pos是token的index，从0～L-1；2i和2i+1表示该token中某个元素是奇数位还是偶数位，范围是0～K-1。$d_{model}$应该是表示embedding的维度，也就是经过embedding之后的token的长度，这里$d_{model}=K$.
简单而言，在这个尺寸为$L\times K$的张量中加入位置编码，pos表示行号，2i或者2i+1表示列号。对某一行，偶数列加入sin函数，奇数列加入cos函数。