构建基于Transformer的推荐系统

基于编码器的自注意力Transformer非常擅长预测自然语言生成任务的下一个字符，因为它们可以注意到给定字符周围的标记/字符的重要性。为什么我们不能应用这个概念来预测任何用户喜欢的给定物品序列中的下一个项目呢?这种推荐问题可以归类为基于物品的协同过滤。,在基于物品的协同过滤中，我们试图找到给定的物品集和不同用户的偏好之间的关系或模式。让我们举个例子，假设我们有两个用户Alice和Bob，每次Alice来我们的网站买她每月的食品杂货，她买牛奶，面包，奶酪，意大利面和番茄酱。, 构建基于Transformer的推荐系统 ,现在我们有一个完全未知的用户，假设叫他Guest来到并向他的购物车中添加面包，现在观察到Guest用户添加了面包，然后我们可以建议用户添加牛奶或奶酪，因为我们从其他用户的历史记录中知道。,我们并不关心用户的类型，比如他们的背景是什么，他们在哪里下单，或者他们的性别是什么。我们只关注每个用户购买或喜欢的物品集。,我们将通过预测给定的物品序列的下一个物品来重新表述推荐问题。这个问题将变得更加类似或完全类似于下一个字符预测或语言建模。我们还可以通过随机屏蔽给定序列中的任何项，并训练基于编码器的Transformer模型来预测被屏蔽的项，从而增加更多的变化。该模型可以从左右两个方向预测物品。, 构建基于Transformer的推荐系统 ,为什么我们要在两个方向上预测?让我们以上面讨论的问题为例。,假设Guest用户直接将奶酪添加到他们的购物车中，那么如果我们只从一个方向进行预测，我们可以向用户推荐番茄酱或面条，但对于这个用户来说，购买这些东西是没有意义的。, 构建基于Transformer的推荐系统 ,但是如果我们的模型以一个给定的顺序预测被遮蔽的物品，我们就可以预测两边，对于Guest用户我们可以建议他添加牛奶、面包或鸡蛋。,,让我们尝试使用这个概念来构建和训练一个我们的模型，预测给定序列中的被屏蔽项。我们将通过下面的一些抽象来讨论代码。这里使用的是MovieLens-25m数据集。,与我们的例子中字符的标识id类似，我们将把每个惟一的电影转换为一个id，从2到电影数量开始。我们将使用id 0作为[PAD]， id 1作为[MASK]。,上面代码我们看到了如何使用Transformer模型(NLP领域的流行模型)来构建基于物品的协同过滤模型。并且通过代码从头开始训练。,