跳转到主要内容

[大语言模型] Mistral 7B 模型介绍

Mistral人工智能团队很自豪地发布了Mistral 7B,这是迄今为止最强大的语言模型。

Mistral 7B 简述

Mistral 7B是一个7.3B参数模型,它:

  • 在所有基准测试中均超过Llama 2 13B
  • 在许多基准测试中表现超过Llama 1 34B
  • 接近CodeLlama 7B的代码性能,同时保持良好的英语任务
  • 使用分组查询注意力(GQA)进行更快的推理
  • 使用滑动窗口注意力(SWA)以较小的成本处理较长的序列
  • 我们将在Apache 2.0许可证下发布Mistral 7B,它可以不受限制地使用。
  • 下载它并在任何地方(包括本地)使用我们的参考实现,
  • 使用vLLM推理服务器和skypilot在任何云(AWS/GCP/Azure)上部署它,
  • 在HuggingFace上使用。

Mistral 7B很容易在任何任务中进行微调。作为演示,我们提供了一个针对聊天进行微调的模型,它的性能优于Llama 2 13B聊天。

【开源软件】最好的开源软件-2022-第27名 Stable Diffusion

Stable Diffusion是一个文本到图像的人工智能模型,可以生成质量惊人的图像。该项目成立仅两个月,就如野火般蔓延,世界各地的爱好者已经在对原作进行改进,以加快生成速度,在内存较低的GPU上运行,并增加内画和外画支持。他们甚至在M1驱动的MacBooks上运行了Stable Diffusion。

Stability.ai花了60万美元训练这个模型,并立即将其作为开源(与OpenAI的DALL-E形成对比)。虽然这样的模型肯定会引发人们对数据集管理和创建NSFW图像的能力的担忧,但几乎可以肯定的是,这项技术最好掌握在每个人手中,而不仅仅是少数几家大公司手中,无论是为了推进研究,还是为了在未来几年创作艺术作品。——Ian Pointer

【生成人工智能】Ray如何解决生成人工智能基础设施的常见生产挑战

这是我们生成人工智能博客系列的第一部分。在这篇文章中,我们讨论了如何使用Ray来生产常见的生成模型工作负载。即将发布的一篇博客将深入探讨Alpa等项目为什么要使用Ray来扩展大型模型。

生成的图像和语言模型有望改变企业的设计、支持、开发等方式。本博客重点关注围绕基础模型支持工作负载生产部署的基础设施挑战,以及Ray,一个用于扩展ML工作负载的领先解决方案,如何应对这些挑战。最后,我们制定了一个改进路线图,以使事情变得更容易。

如今,领先的人工智能组织使用Ray大规模训练大型语言模型(LLM)(例如,OpenAI训练ChatGPT,Cohere训练其模型,EleutherAI训练GPT-J,Alpa训练多节点训练和服务)。然而,这些模型之所以如此令人兴奋,其中一个原因是可以对开源版本进行微调和部署,以解决特定问题,而无需从头开始训练。事实上,社区中的用户越来越多地询问如何使用Ray来协调他们自己的生成人工智能工作负载,建立由大型玩家训练的基础模型。

在下表中,我们用绿色突出显示了常见的“生产规模”需求(通常从1-100个节点开始)。这包括以下问题: