针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

人工智能3年前发布 10100

38 0 0

文章目录

2 应用于图像分类数据集的

3 计算不同类别之间的相似度

4 深度线性神经网络实现快速和

接下来在前两个条件基础上增加了3种新条件，研究了新的分类学习动态，其中每个条件重复10次： 1）FoL（共计n=6000张图像/epoch）； 2) FIL（共计n=54000张图像/epoch，6000张图像/类）； 3) 部分交错学习 (Partial Interleaved Learning，PIL)使用了很小的图像子集（共计n=350张图像/epoch，大约39张图像/类），每一类别（新类别+现有类别）的图像以相等的概率呈现； 4) SWIL，每个epoch使用与PIL 相同的图像总数进行重新训练，但根据与（新）“boot”类别的相似性对现有类别图像进行加权； 5）等权交错学习（Equally Weighted Interleaved Learning，EqWIL），使用与SWIL相同数量的“boot”类图像重新训练，但现有类别图像的权重相同（图3A）。作者团队使用了上述相同的测试数据集（共有n=9000张图像）。当在每种条件下神经网络的性能都达到渐近线时，停止训练。尽管每个epoch使用的训练数据较少，预测新“boot”类的准确率需要更长的时间达到渐近线，与FIL（H=7.27，P<0.05）相比，PIL的召回率更低（图3B第1列和表1“New class”列）。对于SWIL，相似度计算用于确定要交错的现有旧类别图像的比例。在此基础上，作者团队从每个旧类别中随机抽取具有加权概率的输入图像。与其他类别相比，“sneaker”和“sandal”类最相似，从而导致被交错的比例更高（图3A）。根据树状图（图2B），作者团队将“sneaker”和“sandal”类称为相似的旧类，其余则称为不同的旧类。与PIL（H=5.44，P<0.05）相比，使用SWIL时，模型学习新“boot”类的速度更快，对现有类别的干扰也相近。此外，SWIL（H=0.056，P>0.05）的新类别召回率（图3B第1列和表1“New class”列）、总准确率和损失与FIL相当。EqWIL（H=10.99，P<0.05）中新“boot”类的学习与SWIL相同，但对相近的旧类别有更大程度的干扰（图3B第2列和表1“Similar old class”列）。作者团队使用以下两种方法比较SWIL和FIL： 1) 内存比，即FIL和SWIL中存储的图像数量之比，表示存储的数据量减少； 2) 加速比，即在FIL和SWIL中呈现的内容总数的比率，以达到新类别回忆的饱和精度，表明学习新类别所需的时间减少。 SWIL可以在数据需求减少的情况下学习新内容，内存比=154.3x (54000/350)，并且速度更快，加速比=77.1x (54000/(350×2))。即使和新内容有关的图像数量较少，该模型也可以通过使用SWIL，利用模型先验知识的层次结构实现相同的性能。SWIL在PIL和EqWIL之间提供了一个中间缓冲区，允许集成一个新类别，并将对现有类别的干扰降到最低。图3 ( A ) 作者团队在五种不同的学习条件下预训练神经网络学习新的“boot”类（橄榄绿），直到性能平稳：1）FoL（共计n=6000张图像/epoch）；2）FIL（共计n=54000张图像/epoch）；3) PIL（共计n=350张图像/epoch）；4) SWIL（共计n=350张图像/epoch）和 5) EqWIL（共计n=350张图像/epoch）。（B）FoL（黑色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）和 EqWIL（金色）预测新类别、相似旧类别（“sneaker”和“sandals”）和不同旧类别的召回率，预测所有类别的总准确率，以及在测试数据集上的交叉熵损失，其中横坐标都是epoch数。

6 新内容与旧类别的一致性对学习时间和所需数据的影响

7 利用SWIL进行序列学习

8 利用SWIL扩大类别间的距离，减少学习时间和数据量

人工神经网络在持续学习方面面临重大挑战，通常表现出灾难性干扰。为了克服此问题，许多研究都使用了完全交错学习（FIL），即新旧内容交叉学习，联合训练网络。FIL需要在每次学新信息时交织所有现有信息，使其成为一个生物学意义上不可信且耗时的过程。最近，有研究表明FIL可能并非必需，仅交错与新内容具有实质表征相似性的旧内容，即采用相似性加权交错学习（SWIL）的方法可以达到相同的学习效果。然而，有人对SWIL的可扩展性表示了担忧。本文扩展了SWIL算法，并基于不同的数据集（Fashion-MNIST、CIFAR10 和 CIFAR100）和神经网络模型（深度线性网络和CNN）对其进行了测试。在所有条件下，与部分交错学习（PIL）相比，相似性加权交错学习（SWIL）和等权交错学习（EqWIL）在学习新类别方面的表现更好。这和作者团队的预期相符，因为与旧类别相比，SWIL和EqWIL增加了新类别的相对频率。本文同时还证明，与同等子抽样现有类别（即EqWIL方法）相比，仔细选择和交织相似内容减少了对相近旧类别的灾难性干扰。在预测新类别和现有类别方面，SWIL的性能与FIL类似，却显著加快了学习新内容的速度（图7D)，同时大大减少了所需的训练数据。SWIL可以在序列学习框架中学习新类别，进一步证明了其泛化能力。最后，与许多旧类别具有相似性的新类别相比，如果其与之前学过的类别重叠更少（距离更大），可以缩短集成时间，并且数据效率更高。总体来说，实验结果提供了一种可能的见解，即大脑事实上通过减少不切实际的训练时间，克服了原始CLST模型的一项主要弱点。

与人类不同，人工神经网络在学习新事物时会迅速遗忘先前学到的信息，必须通过新旧信息的交错来重新训练；但是，交错全部旧信息非常耗时，并且可能没有必要。只交错与新信息有实质相似性的旧信息可能就足够了。

近日，美国科学院院报（PNAS）刊登了一篇论文，“Learning in deep neural networks and brains with similarity-weighted interleaved learning”，由加拿大皇家学会会士、知名神经科学家 Bruce McNaughton 的团队发表。他们的工作发现，通过将旧信息与新信息进行相似性加权交错训练，深度网络可以快速学习新事物，不仅降低了遗忘率，而且使用的数据量大幅减少。

论文作者还作出一个假设：通过跟踪最近活跃的神经元和神经动力学吸引子（attractor dynamics）的持续兴奋性轨迹，可以在大脑中实现相似性加权交错。这些发现可能会促进神经科学和机器学习的进一步发展。

2 应用于图像分类数据集的

32 应用于图像分类数据集的

3 计算不同类别之间的相似度

33 计算不同类别之间的相似度

4 深度线性神经网络实现快速和

34 深度线性神经网络实现快速和

接下来在前两个条件基础上增加了3种新条件，研究了新的分类学习动态，其中每个条件重复10次：

1）FoL（共计n=6000张图像/epoch）；

2) FIL（共计n=54000张图像/epoch，6000张图像/类）；

3) 部分交错学习 (Partial Interleaved Learning，PIL)使用了很小的图像子集（共计n=350张图像/epoch，大约39张图像/类），每一类别（新类别+现有类别）的图像以相等的概率呈现；

4) SWIL，每个epoch使用与PIL 相同的图像总数进行重新训练，但根据与（新）“boot”类别的相似性对现有类别图像进行加权；

5）等权交错学习（Equally Weighted Interleaved Learning，EqWIL），使用与SWIL相同数量的“boot”类图像重新训练，但现有类别图像的权重相同（图3A）。

作者团队使用了上述相同的测试数据集（共有n=9000张图像）。当在每种条件下神经网络的性能都达到渐近线时，停止训练。尽管每个epoch使用的训练数据较少，预测新“boot”类的准确率需要更长的时间达到渐近线，与FIL（H=7.27，P<0.05）相比，PIL的召回率更低（图3B第1列和表1“New class”列）。

对于SWIL，相似度计算用于确定要交错的现有旧类别图像的比例。在此基础上，作者团队从每个旧类别中随机抽取具有加权概率的输入图像。与其他类别相比，“sneaker”和“sandal”类最相似，从而导致被交错的比例更高（图3A）。

根据树状图（图2B），作者团队将“sneaker”和“sandal”类称为相似的旧类，其余则称为不同的旧类。与PIL（H=5.44，P<0.05）相比，使用SWIL时，模型学习新“boot”类的速度更快，对现有类别的干扰也相近。此外，SWIL（H=0.056，P>0.05）的新类别召回率（图3B第1列和表1“New class”列）、总准确率和损失与FIL相当。EqWIL（H=10.99，P<0.05）中新“boot”类的学习与SWIL相同，但对相近的旧类别有更大程度的干扰（图3B第2列和表1“Similar old class”列）。

作者团队使用以下两种方法比较SWIL和FIL：

1) 内存比，即FIL和SWIL中存储的图像数量之比，表示存储的数据量减少；

2) 加速比，即在FIL和SWIL中呈现的内容总数的比率，以达到新类别回忆的饱和精度，表明学习新类别所需的时间减少。

SWIL可以在数据需求减少的情况下学习新内容，内存比=154.3x (54000/350)，并且速度更快，加速比=77.1x (54000/(350×2))。即使和新内容有关的图像数量较少，该模型也可以通过使用SWIL，利用模型先验知识的层次结构实现相同的性能。SWIL在PIL和EqWIL之间提供了一个中间缓冲区，允许集成一个新类别，并将对现有类别的干扰降到最低。

图3 ( A ) 作者团队在五种不同的学习条件下预训练神经网络学习新的“boot”类（橄榄绿），直到性能平稳：1）FoL（共计n=6000张图像/epoch）；2）FIL（共计n=54000张图像/epoch）；3) PIL（共计n=350张图像/epoch）；4) SWIL（共计n=350张图像/epoch）和 5) EqWIL（共计n=350张图像/epoch）。（B）FoL（黑色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）和 EqWIL（金色）预测新类别、相似旧类别（“sneaker”和“sandals”）和不同旧类别的召回率，预测所有类别的总准确率，以及在测试数据集上的交叉熵损失，其中横坐标都是epoch数。

6 新内容与旧类别的一致性对学习时间和所需数据的影响

36 新内容与旧类别的一致性对学习时间和所需数据的影响

7 利用SWIL进行序列学习

37 利用SWIL进行序列学习

8 利用SWIL扩大类别间的距离，减少学习时间和数据量

38 利用SWIL扩大类别间的距离，减少学习时间和数据量

作者团队最后测试了SWIL算法的泛化性，验证其是否可以学习包括更多类别的数据集，以及是否适用于更复杂的网络架构。

他们在CIFAR100数据集（训练集500张图像/类，测试集100张图像/类）上训练了一个复杂的CNN模型-VGG19（共有19层），学习了其中的90个类别。然后对网络进行再训练，学习新类别。图7A显示了基于CIFAR100数据集，作者团队根据倒数第二层的激活函数计算的相似性矩阵。如图7B所示，新“train”（“火车”）类与许多现有的交通工具类别（如“bus” （“公共汽车”）、“streetcar” （“有轨电车”）和“tractor”（“拖拉机”）等）很相似。

与FIL相比，SWIL可以更快地学习新事物（加速比=95.45x (45500×6/(1430×2))）并且使用的数据量 (内存比=31.8x) 显著减少，而性能基本相同(H=8.21, P>0.05) 。如图7C所示，在PIL（H=10.34，P<0.05）和EqWIL（H=24.77，P<0.05）条件下，模型预测新类别的召回率较低并且产生的干扰较大，而SWIL克服了上述不足。

同时，为了探索不同类别表征之间的较大距离是否构成了加速模型学习的基本条件，作者团队另外训练了两种神经网络模型：

1）6层CNN（与基于CIFAR10的图4和图5相同）；

2）VGG11（11层）学习CIFAR100数据集中的90个类别，仅在FIL和SWIL两个条件下对新的“train”类进行训练。

如图7B所示，对于上述两种网络模型，新的“train”类和交通工具类别之间的重叠度更高，但与VGG19模型相比，各类别的分离度较低。与FIL相比，SWIL学习新事物的速度与层数的增加大致呈线性关系（斜率=0.84）。该结果表明，类别间表征距离的增加可以加速学习并减少内存负载。

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习，登上PNAS

图7：( A ) VGG19学习新的“train”类后，作者团队根据倒数第二层激活函数计算的相似性矩阵。“truck” 、“streetcar” 、“bus” 、“house” 和 “tractor”5种类别与“train”的相似性最大。从相似度矩阵中排除对角元素（相似度 =1）。（B，左）作者团队针对6层CNN、VGG11和VGG19网络，经过倒数第二层激活函数后，进行t-SNE降维可视化的结果图。（B，右）纵轴表示加速比（FIL/SWIL），横轴表示3个不同网络的层数相对于6层CNN的比率。黑色虚线、红色虚线和蓝色实线分别代表斜率 =1的标准线、最佳拟合线和仿真结果。( C ) VGG19模型的学习情况：FoL（黑色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）和 EqWIL（金色）预测新“train”类、相似旧类别（交通工具类别）和不同旧类别（除了交通工具类别）的召回率，预测所有类别的总准确率，以及在测试数据集上的交叉熵损失，其中横坐标都是epoch数。每张图显示的是重复10次后的平均值，阴影区域为±1 SEM。( D ) 从左到右依次表示模型预测Fashion-MNIST“boot”类（图3）、CIFAR10“cat”类（图4）、CIFAR10“car”类（图5）和CIFAR100“train”类的召回率，是SWIL（洋红色）和FIL（蓝色）使用的图像总数（对数比例）的函数。“N”表示每种学习条件下每个epoch使用的图像总数（包括新、旧类别）。

如果在更多非重叠类上训练网络，并且各表征之间的距离更大，速度是否会进一步提升？

为此，作者团队采用了一个深度线性网络（用于图1-3中的Fashion-MNIST示例），并对其进行训练，以学习由8个Fashion-MNIST类别（不包括“bags”和“boot”类）和10个Digit-MNIST类别形成的组合数据集，然后训练网络学习新的“boot”类别。

和作者团队的预期相符，“boot”与旧类别“sandals”和“sneaker”相似度更高，其次是其余的Fashion-MNIST类（主要包括服饰类图像），最后Digit-MNIST类（主要包括数字类图像）。

基于此，作者团队首先交织了更多相似的旧类别样本，再交织Fashion-MNIST和Digit-MNIST类样本（共计n=350张图像/epoch）。实验结果表明，与FIL类似，SWIL可以快速学习新类别内容而不受干扰，但使用的数据子集要小得多，内存比为325.7x (114000/350) ，加速比为162.85x (228000/1400)。作者团队在当前结果中观察到的加速比为2.1x (162.85/77.1)，与Fashion-MNIST数据集相比，类别数目增加了 2.25倍 (18/8)。

本节的实验结果有助于确定SWIL可以适用于更复杂的数据集 (CIFAR100) 和神经网络模型(VGG19)，证明了该算法的泛化性。同时证明了扩大类别之间的内部距离或增加非重叠类别的数量，可能会进一步提高学习速度并降低内存负载。