11.2. 注意力汇聚：Nadaraya-Watson 核回归¶

上节介绍了框架下的注意力机制的主要成分图11.1.3：查询（自主提示）和键（非自主提示）之间的交互形成了注意力汇聚；注意力汇聚有选择地聚合了值（感官输入）以生成最终的输出。本节将介绍注意力汇聚的更多细节，以便从宏观上了解注意力机制在实践中的运作方式。具体来说，1964年提出的Nadaraya-Watson核回归模型是一个简单但完整的例子，可以用于演示具有注意力机制的机器学习。

import mlx.core as mx
import mlx.nn as nn
import mlx.optimizers as optim
import numpy as np
from d2l import mlx as d2l

11.2.1. 生成数据集¶

简单起见，考虑下面这个回归问题：给定的成对的“输入－输出”数据集 \(\{(x_1, y_1), \ldots, (x_n, y_n)\}\)，如何学习\(f\)来预测任意新输入\(x\)的输出\(\hat{y} = f(x)\)？

根据下面的非线性函数生成一个人工数据集，其中加入的噪声项为\(\epsilon\)：

(11.2.1)¶\[y_i = 2\sin(x_i) + x_i^{0.8} + \epsilon,\]

其中\(\epsilon\)服从均值为\(0\)和标准差为\(0.5\)的正态分布。在这里生成了\(50\)个训练样本和\(50\)个测试样本。为了更好地可视化之后的注意力模式，需要将训练样本进行排序。

n_train = 50  # 训练样本数
x_train = mx.sort(mx.random.uniform(low=0.0, high=5.0, shape=(n_train,))) # 排序后的训练样本

def f(x):
    return 2 * mx.sin(x) + x**0.8

y_train = f(x_train) + mx.random.normal(shape=(n_train,), loc=0.0, scale=0.5)  # 训练样本的输出
x_test = mx.arange(0, 5, 0.1)  # 测试样本
y_truth = f(x_test)  # 测试样本的真实输出
n_test = len(x_test)  # 测试样本数
n_test

下面的函数将绘制所有的训练样本（样本由圆圈表示），不带噪声项的真实数据生成函数\(f\)（标记为“Truth”），以及学习得到的预测函数（标记为“Pred”）。

def plot_kernel_reg(y_hat):
    d2l.plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],
             xlim=[0, 5], ylim=[-1, 5])
    d2l.plt.plot(x_train, y_train, 'o', alpha=0.5);

11.2.2. 平均汇聚¶

先使用最简单的估计器来解决回归问题。基于平均汇聚来计算所有训练样本输出值的平均值：

(11.2.2)¶\[f(x) = \frac{1}{n}\sum_{i=1}^n y_i,\]

如下图所示，这个估计器确实不够聪明。真实函数\(f\)（“Truth”）和预测函数（“Pred”）相差很大。

y_hat = mx.repeat(y_train.mean(), n_test)
plot_kernel_reg(y_hat)

../_images/output_nadaraya-waston_d76103_8_0.svg

11.2.3. 非参数注意力汇聚¶

显然，平均汇聚忽略了输入\(x_i\)。于是Nadaraya ()和 Watson ()提出了一个更好的想法，根据输入的位置对输出\(y_i\)进行加权：

(11.2.3)¶\[f(x) = \sum_{i=1}^n \frac{K(x - x_i)}{\sum_{j=1}^n K(x - x_j)} y_i,\]

其中\(K\)是核（kernel）。公式 (11.2.3)所描述的估计器被称为 Nadaraya-Watson核回归（Nadaraya-Watson kernel regression）。这里不会深入讨论核函数的细节，但受此启发，我们可以从图11.1.3中的注意力机制框架的角度重写 (11.2.3)，成为一个更加通用的注意力汇聚（attention pooling）公式：

(11.2.4)¶\[f(x) = \sum_{i=1}^n \alpha(x, x_i) y_i,\]

其中\(x\)是查询，\((x_i, y_i)\)是键值对。比较 (11.2.4)和 (11.2.2)，注意力汇聚是\(y_i\)的加权平均。将查询\(x\)和键\(x_i\)之间的关系建模为 注意力权重（attention weight）\(\alpha(x, x_i)\)，如 (11.2.4)所示，这个权重将被分配给每一个对应值\(y_i\)。对于任何查询，模型在所有键值对注意力权重都是一个有效的概率分布：它们是非负的，并且总和为1。

为了更好地理解注意力汇聚，下面考虑一个高斯核（Gaussian kernel），其定义为：

(11.2.5)¶\[K(u) = \frac{1}{\sqrt{2\pi}} \exp(-\frac{u^2}{2}).\]

将高斯核代入 (11.2.4)和 (11.2.3)可以得到：

(11.2.6)¶\[\begin{split}\begin{aligned} f(x) &=\sum_{i=1}^n \alpha(x, x_i) y_i\\ &= \sum_{i=1}^n \frac{\exp\left(-\frac{1}{2}(x - x_i)^2\right)}{\sum_{j=1}^n \exp\left(-\frac{1}{2}(x - x_j)^2\right)} y_i \\&= \sum_{i=1}^n \mathrm{softmax}\left(-\frac{1}{2}(x - x_i)^2\right) y_i. \end{aligned}\end{split}\]

在 (11.2.6)中，如果一个键\(x_i\)越是接近给定的查询\(x\)，那么分配给这个键对应值\(y_i\)的注意力权重就会越大，也就“获得了更多的注意力”。

值得注意的是，Nadaraya-Watson核回归是一个非参数模型。因此， (11.2.6)是 非参数的注意力汇聚（nonparametric attention pooling）模型。接下来，我们将基于这个非参数的注意力汇聚模型来绘制预测结果。从绘制的结果会发现新的模型预测线是平滑的，并且比平均汇聚的预测更接近真实。

# X_repeat的形状:(n_test,n_train),
# 每一行都包含着相同的测试输入（例如：同样的查询）
X_repeat = mx.repeat(x_test, n_train).reshape((-1, n_train))
print(X_repeat)
# x_train包含着键。attention_weights的形状：(n_test,n_train),
# 每一行都包含着要在给定的每个查询的值（y_train）之间分配的注意力权重
attention_weights = nn.softmax(-(X_repeat - x_train)**2 / 2, axis=1)
# y_hat的每个元素都是值的加权平均值，其中的权重是注意力权重
y_hat = mx.matmul(attention_weights, y_train)
plot_kernel_reg(y_hat)

array([[0, 0, 0, ..., 0, 0, 0],
       [0.1, 0.1, 0.1, ..., 0.1, 0.1, 0.1],
       [0.2, 0.2, 0.2, ..., 0.2, 0.2, 0.2],
       ...,
       [4.7, 4.7, 4.7, ..., 4.7, 4.7, 4.7],
       [4.8, 4.8, 4.8, ..., 4.8, 4.8, 4.8],
       [4.9, 4.9, 4.9, ..., 4.9, 4.9, 4.9]], dtype=float32)

../_images/output_nadaraya-waston_d76103_10_1.svg

现在来观察注意力的权重。这里测试数据的输入相当于查询，而训练数据的输入相当于键。因为两个输入都是经过排序的，因此由观察可知“查询-键”对越接近，注意力汇聚的注意力权重就越高。

d2l.show_heatmaps(mx.expand_dims(attention_weights, axis=[0, 1]),
                  xlabel='Sorted training inputs',
                  ylabel='Sorted testing inputs')

../_images/output_nadaraya-waston_d76103_12_0.svg

11.2.4. 带参数注意力汇聚¶

非参数的Nadaraya-Watson核回归具有一致性（consistency）的优点：如果有足够的数据，此模型会收敛到最优结果。尽管如此，我们还是可以轻松地将可学习的参数集成到注意力汇聚中。

例如，与 (11.2.6)略有不同，在下面的查询\(x\)和键\(x_i\)之间的距离乘以可学习参数\(w\)：

(11.2.7)¶\[\begin{split}\begin{aligned}f(x) &= \sum_{i=1}^n \alpha(x, x_i) y_i \\&= \sum_{i=1}^n \frac{\exp\left(-\frac{1}{2}((x - x_i)w)^2\right)}{\sum_{j=1}^n \exp\left(-\frac{1}{2}((x - x_j)w)^2\right)} y_i \\&= \sum_{i=1}^n \mathrm{softmax}\left(-\frac{1}{2}((x - x_i)w)^2\right) y_i.\end{aligned}\end{split}\]

本节的余下部分将通过训练这个模型 (11.2.7)来学习注意力汇聚的参数。

11.2.4.1. 批量矩阵乘法¶

为了更有效地计算小批量数据的注意力，我们可以利用深度学习开发框架中提供的批量矩阵乘法。

假设第一个小批量数据包含\(n\)个矩阵\(\mathbf{X}_1,\ldots, \mathbf{X}_n\)，形状为\(a\times b\)，第二个小批量包含\(n\)个矩阵\(\mathbf{Y}_1, \ldots, \mathbf{Y}_n\)，形状为\(b\times c\)。它们的批量矩阵乘法得到\(n\)个矩阵 \(\mathbf{X}_1\mathbf{Y}_1, \ldots, \mathbf{X}_n\mathbf{Y}_n\)，形状为\(a\times c\)。因此，假定两个张量的形状分别是\((n,a,b)\)和\((n,b,c)\)，它们的批量矩阵乘法输出的形状为\((n,a,c)\)。

X = mx.ones((2, 1, 4))
Y = mx.ones((2, 4, 6))
mx.matmul(X, Y).shape

(2, 1, 6)

在注意力机制的背景中，我们可以使用小批量矩阵乘法来计算小批量数据中的加权平均值。

weights = mx.ones((2, 10)) * 0.1
values = mx.arange(20.0).reshape((2, 10))
mx.matmul(mx.expand_dims(weights, axis=1), mx.expand_dims(values, axis=-1))

array([[[4.5]],
       [[14.5]]], dtype=float32)

11.2.4.2. 定义模型¶

基于 (11.2.7)中的带参数的注意力汇聚，使用小批量矩阵乘法，定义Nadaraya-Watson核回归的带参数版本为：

class NWKernelRegression(nn.Module):
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        # 唯一需要训练的参数：标量`w`
        self.w = mx.random.uniform(shape=(1,))

    def __call__(self, queries, keys, values):
        # queries的形状为(查询个数,) e.g. (n_train,)
        # keys和values的形状为(查询个数，“键－值”对个数) e.g. (n_test, n_train-1)

        queries = mx.repeat(mx.expand_dims(queries, axis=1), repeats=keys.shape[1], axis=1)

        attention_weights = mx.softmax(
            -((queries - keys) * self.w)**2 / 2, axis=1)

        return mx.matmul(mx.expand_dims(attention_weights, axis=1),
                         mx.expand_dims(values, axis=-1)).reshape(-1)

    def get_attention_weights(self):
        return attention_weights

11.2.4.3. 训练¶

接下来，将训练数据集变换为键和值用于训练注意力模型。在带参数的注意力汇聚模型中，任何一个训练样本的输入都会和除自己以外的所有训练样本的“键－值”对进行计算，从而得到其对应的预测输出。

# X_tile的形状:(n_train，n_train)，每一行都包含着相同的训练输入
X_tile_mx = mx.repeat(mx.expand_dims(x_train, axis=0), repeats=n_train, axis=0)
print(X_tile_mx)
print(X_tile_mx.shape)
# Y_tile的形状:(n_train，n_train)，每一行都包含着相同的训练输出
Y_tile_mx = mx.repeat(mx.expand_dims(y_train, axis=0), repeats=n_train, axis=0)

X_tile_np = np.array(X_tile_mx)
Y_tile_np = np.array(Y_tile_mx)

# 创建单位矩阵和布尔掩码以排除自己和自己的比较（“Leave-one-out”）
identity_matrix = np.eye(n_train, dtype=bool)
mask = ~identity_matrix # Convert 0/1 to False/True
print(mask)
print(mask.shape)

# keys: For each training point i, use all other training points j (j!=i) as keys.
# Shape: (n_train, n_train - 1)
keys = mx.array(X_tile_np[mask].reshape((n_train, -1)))
print(keys.shape)

# values: Corresponding y_train values for the keys.
# Shape: (n_train, n_train - 1)
values = mx.array(Y_tile_np[mask].reshape((n_train, -1)))

array([[0.0522957, 0.232416, 0.252349, ..., 4.60456, 4.76211, 4.90282],
       [0.0522957, 0.232416, 0.252349, ..., 4.60456, 4.76211, 4.90282],
       [0.0522957, 0.232416, 0.252349, ..., 4.60456, 4.76211, 4.90282],
       ...,
       [0.0522957, 0.232416, 0.252349, ..., 4.60456, 4.76211, 4.90282],
       [0.0522957, 0.232416, 0.252349, ..., 4.60456, 4.76211, 4.90282],
       [0.0522957, 0.232416, 0.252349, ..., 4.60456, 4.76211, 4.90282]], dtype=float32)
(50, 50)
[[False  True  True ...  True  True  True]
 [ True False  True ...  True  True  True]
 [ True  True False ...  True  True  True]
 ...
 [ True  True  True ... False  True  True]
 [ True  True  True ...  True False  True]
 [ True  True  True ...  True  True False]]
(50, 50)
(50, 49)

训练带参数的注意力汇聚模型时，使用平方损失函数和随机梯度下降。

net = NWKernelRegression()
def mse_loss(y_hat, y):
    return nn.losses.mse_loss(y_hat, y, reduction='sum')
animator = d2l.Animator(xlabel='epoch', ylabel='loss', xlim=[1, 5])
optimizer = optim.SGD(learning_rate=0.5)

def loss_fn(net, x_train, keys , values, y_train):
    y_hat = net(x_train, keys, values)
    return mse_loss(y_hat, y_train)
value_and_grad_fn = nn.value_and_grad(net, loss_fn)

for epoch in range(5):
    # Calculate loss and gradients
    # Pass the model instance (net) and the necessary data
    l, grads = value_and_grad_fn(net, x_train, keys, values, y_train)

    # Update the model's parameters using the optimizer
    optimizer.update(net, grads)

    # Evaluate the parameters to ensure updates are processed for the next step
    # and for printing the loss.
    mx.eval(net.parameters(), optimizer.state)

    # Print loss (convert MLX scalar to Python float)
    loss_value = l.item()

    print(f'epoch {epoch + 1}, loss {loss_value:.6f}')
    animator.add(epoch + 1, loss_value)

../_images/output_nadaraya-waston_d76103_22_0.svg

如下所示，训练完带参数的注意力汇聚模型后可以发现：在尝试拟合带噪声的训练数据时，预测结果绘制的线不如之前非参数模型的平滑。

# keys的形状:(n_test，n_train)，每一行包含着相同的训练输入（例如，相同的键）
keys = mx.repeat(mx.expand_dims(x_train, axis=0), repeats=n_test, axis=0)
print(keys)
# value的形状:(n_test，n_train)
values = mx.repeat(mx.expand_dims(y_train, axis=0), repeats=n_test, axis=0)

y_hat = net(x_test, keys, values)
print(y_hat)
plot_kernel_reg(y_hat)

array([[0.0522957, 0.232416, 0.252349, ..., 4.60456, 4.76211, 4.90282],
       [0.0522957, 0.232416, 0.252349, ..., 4.60456, 4.76211, 4.90282],
       [0.0522957, 0.232416, 0.252349, ..., 4.60456, 4.76211, 4.90282],
       ...,
       [0.0522957, 0.232416, 0.252349, ..., 4.60456, 4.76211, 4.90282],
       [0.0522957, 0.232416, 0.252349, ..., 4.60456, 4.76211, 4.90282],
       [0.0522957, 0.232416, 0.252349, ..., 4.60456, 4.76211, 4.90282]], dtype=float32)
array([0.324203, 0.384058, 0.697717, ..., 1.21993, 1.48162, 2.86325], dtype=float32)

../_images/output_nadaraya-waston_d76103_24_1.svg

为什么新的模型更不平滑了呢？下面看一下输出结果的绘制图：与非参数的注意力汇聚模型相比，带参数的模型加入可学习的参数后，曲线在注意力权重较大的区域变得更不平滑。

d2l.show_heatmaps(mx.expand_dims(net.get_attention_weights(), axis=[0, 1]),
                  xlabel='Sorted training inputs',
                  ylabel='Sorted testing inputs')

../_images/output_nadaraya-waston_d76103_26_0.svg

11.2.5. 小结¶

Nadaraya-Watson核回归是具有注意力机制的机器学习范例。
Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看，分配给每个值的注意力权重取决于将值所对应的键和查询作为输入的函数。
注意力汇聚可以分为非参数型和带参数型。

11.2.6. 练习¶

增加训练数据的样本数量，能否得到更好的非参数的Nadaraya-Watson核回归模型？
在带参数的注意力汇聚的实验中学习得到的参数\(w\)的价值是什么？为什么在可视化注意力权重时，它会使加权区域更加尖锐？
如何将超参数添加到非参数的Nadaraya-Watson核回归中以实现更好地预测结果？
为本节的核回归设计一个新的带参数的注意力汇聚模型。训练这个新模型并可视化其注意力权重。