【AI新闻】一种让人工智能聊天机器人全天聊天而不崩溃的新方法

developer.chat

3 March 2024

SEO Title

一个令人费解的现象

大型语言模型将数据（如用户查询中的单词）编码为称为标记的表示。许多模型使用所谓的注意力机制，使用这些标记来生成新的文本。

通常，人工智能聊天机器人会根据刚刚看到的文本编写新的文本，因此它会将最近的令牌存储在内存中，称为KV缓存，以便稍后使用。注意力机制构建了一个网格，其中包括缓存中的所有令牌，一个“注意力映射”，映射出每个令牌或单词与其他令牌的关联程度。

理解这些关系是使大型语言模型能够生成类人文本的一个功能。

但是，当缓存变得非常大时，注意力映射可能会变得更加庞大，从而减慢计算速度。

此外，如果对内容进行编码所需的令牌比缓存所能容纳的令牌多，则模型的性能会下降。例如，一个流行的模型可以存储4096个代币，但一篇学术论文中大约有10000个代币。

为了解决这些问题，研究人员采用了一种“滑动缓存”，将最旧的代币取出，添加新的代币。然而，一旦第一个令牌被驱逐，模型的性能往往会急剧下降，从而迅速降低新生成的单词的质量。

在这篇新论文中，研究人员意识到，如果他们将第一个令牌保留在滑动缓存中，即使超过缓存大小，模型也会保持其性能。

但这没有任何意义。小说中的第一个单词可能与最后一个单词无关，那么为什么第一个单词对模型生成最新单词如此重要呢？

在他们的新论文中，研究人员还揭示了这种现象的原因。

一些模型在其注意力机制中使用Softmax操作，该操作为每个令牌分配一个分数，表示它与每个其他令牌的关联程度。Softmax操作要求所有注意力得分总和为1。由于大多数代币没有强相关性，它们的注意力得分非常低。该模型在第一个令牌中转储任何剩余的注意力分数。

研究人员将这第一个标志称为“注意力汇”

韩说：“我们需要一个注意力库，模型决定使用第一个令牌作为注意力库，因为它是全局可见的——其他每个令牌都可以看到它。我们发现，我们必须始终将注意力库保存在缓存中，以保持模型的动态性。”。

在构建StreamingLLM的过程中，研究人员发现，在滑动缓存的开头有四个注意力汇令牌可以获得最佳性能。

他们还发现，即使添加了新的代币，而其他代币则被淘汰，每个代币的位置编码也必须保持不变。如果标记5被挤掉，则标记6必须保持编码为6，即使它现在是缓存中的第五个标记。

通过结合这两种想法，它们使StreamingLLM能够保持连续的对话，同时优于使用重新计算的流行方法。

例如，当缓存具有256个令牌时，重新计算方法需要63毫秒来解码新令牌，而StreamingLLM需要31毫秒。然而，如果缓存大小增长到4096个令牌，则新令牌的重新计算需要1411毫秒，而StreamingLLM只需要65毫秒。

“StreamingLLM的创新方法以注意力库机制为中心，确保了稳定的内存使用和性能，即使在处理长度高达400万个令牌的文本时也是如此，”新加坡国立大学计算机科学的总统级年轻教授杨友（音）说，他没有参与这项工作

卡内基梅隆大学机器学习和计算机科学系助理教授陈天琦也没有参与这项研究，他对此表示赞同，他说：“流媒体LLM可以顺利延长大型语言模型的会话长度。我们一直在使用它在iPhone上部署Mistral模型，并取得了巨大成功。”

研究人员还通过在所有训练样本中预先准备几个占位符标记，探索了注意力汇在模型训练中的使用。

他们发现，使用注意力汇进行训练可以使模型在缓存中只有一个注意力汇的情况下保持性能，而不是通常需要四个注意力汇来稳定预训练模型的性能。

但是，尽管StreamingLLM使模型能够进行连续的对话，但模型无法记住未存储在缓存中的单词。未来，研究人员计划通过研究检索被驱逐的代币或使模型能够记住以前的对话的方法来解决这一限制。

StreamingLLM已被纳入NVIDIA的大型语言模型优化库TensorRTLLM中。

这项工作的部分资金来自麻省理工学院沃森人工智能实验室、麻省理工大学科学中心和美国国家科学基金会。