跳转到主要内容

[大语言模型] Mistral 7B 模型介绍

Mistral人工智能团队很自豪地发布了Mistral 7B,这是迄今为止最强大的语言模型。

Mistral 7B 简述

Mistral 7B是一个7.3B参数模型,它:

  • 在所有基准测试中均超过Llama 2 13B
  • 在许多基准测试中表现超过Llama 1 34B
  • 接近CodeLlama 7B的代码性能,同时保持良好的英语任务
  • 使用分组查询注意力(GQA)进行更快的推理
  • 使用滑动窗口注意力(SWA)以较小的成本处理较长的序列
  • 我们将在Apache 2.0许可证下发布Mistral 7B,它可以不受限制地使用。
  • 下载它并在任何地方(包括本地)使用我们的参考实现,
  • 使用vLLM推理服务器和skypilot在任何云(AWS/GCP/Azure)上部署它,
  • 在HuggingFace上使用。

Mistral 7B很容易在任何任务中进行微调。作为演示,我们提供了一个针对聊天进行微调的模型,它的性能优于Llama 2 13B聊天。