【AI模型】LLM中检查点上的检查点

developer.chat

18 January 2025

如果你一直在关注深度学习的最新消息，你就会意识到深度学习中的数据和模型非常庞大。数据集的大小可能达到PB级，模型本身的大小也可能达到数百GB。这意味着，即使是模型本身也无法放入标准GPU芯片的内存中。高效和智能的并行化以及可恢复性在深度学习领域至关重要。

最近的一些文献主要关注LLM系统的基础设施配置。如果你了解VAST，你就会知道这正是我们的专长，因为我们不仅喜欢谈论数据基础设施，还喜欢谈论所有可以推动技术从数据中获得最大价值的神奇方法。因此，事不宜迟，我们想向您介绍并行性如何影响当今最复杂模型中的检查点和恢复操作。

在所有维度上并行化

对于LLM和其他大规模深度学习算法中固有的大型数据集和大型模型，数据和模型本身都太大，无法放入内存。例如，具有数十亿个参数的典型LLM将不适合内存。GPT-3的大小大于500 GB，典型的GPU限制为80 GB的VMEM。此外，单个A100 GPU需要几百年的时间来训练GPT-3（实际上需要300多年）。因此，多维并行性对于训练和微调模型至关重要。

这一论点基于该领域的广泛研究，特别是斯坦福大学、英伟达和微软研究院的开创性论文《威震天LM大规模训练》。作者提出，并在现场得到证实，三种并行性的综合允许LLM中更易于管理和恢复的工作负载：

阅读更多关于【AI模型】LLM中检查点上的检查点
登录发表评论

介绍Phi-3：重新定义SLM的可能性

developer.chat

25 April 2024

我们很高兴介绍Phi-3，这是一个由微软开发的开放式人工智能模型家族。Phi-3模型是可用的功能最强大、成本效益最高的小型语言模型（SLM），在各种语言、推理、编码和数学基准测试中都优于相同大小和下一大小的模型。此版本为客户扩展了高质量模型的选择范围，在他们编写和构建生成型人工智能应用程序时提供了更实用的选择。

从今天开始，Phi-3-mini，一种3.8B语言模型，可在Microsoft Azure AI Studio、Hugging Face和Ollama上使用。

阅读更多关于介绍Phi-3：重新定义SLM的可能性
登录发表评论

Phi-3 Mini是一款3.8B参数、重量轻、最先进的开放式模型

developer.chat

25 April 2024

Phi-3 Mini

Phi-3 Mini是一个3.8B参数、轻量级、最先进的开放模型，使用Phi-3数据集进行训练，包括合成数据和过滤后的公开网站数据，重点关注高质量和推理密集的属性。
该模型经过了一个后期训练过程，其中包括监督微调和直接偏好优化，以确保精确的指令遵守和稳健的安全措施。
当根据测试常识、语言理解、数学、代码、长上下文和逻辑推理的基准进行评估时，Phi-3 Mini-4K-Instruction在参数不到130亿的模型中展示了稳健和最先进的性能。

预期用途

主要使用案例

该模型旨在以英语进行商业和研究用途。该模型为需要1）内存/计算受限环境2）延迟受限场景3）强推理（尤其是数学和逻辑）4）长上下文的应用程序提供了用途
我们的模型旨在加速对语言和多模式模型的研究，用作生成人工智能功能的构建块。

OpenAI与开源多语言嵌入模型

developer.chat

25 April 2024

选择最适合您的数据的模型

OpenAI最近发布了他们的新一代嵌入模型，称为嵌入v3，他们将其描述为性能最高的嵌入模型，具有更高的多语言性能。这些模型分为两类：一类较小，称为text-embedding-3-small，另一类较大，功能更强大，称为text-embedding-3-large。

关于这些模型的设计和训练方式，披露的信息很少。作为他们之前发布的嵌入模型（2022年12月，ada-002模型类），OpenAI再次选择了一种封闭源方法，其中模型只能通过付费的API访问。

但是，这些表演是否如此之好，以至于值得付出代价？

这篇文章的动机是将这些新模型的性能与开源模型的性能进行实证比较。我们将依赖于数据检索工作流，在该工作流中，必须在给定用户查询的情况下找到语料库中最相关的文档。

我们的语料库将是《欧洲人工智能法案》，该法案目前正处于最后的验证阶段。这个语料库的一个有趣的特点是，除了是世界上第一个人工智能的法律框架外，它还有24种语言。这使得可以比较不同语言族的数据检索准确性。

该职位将经历以下两个主要步骤：

阅读更多关于 OpenAI与开源多语言嵌入模型
登录发表评论

Gemma家族通过为开发人员和研究人员量身定制的模型进行扩张

developer.chat

11 April 2024

真棒代码LLM

developer.chat

4 April 2024

🧵 Table of Contents

阅读更多关于真棒代码LLM
登录发表评论

LMOps : 启用人工智能功能的通用技术，包括LLM和MLLM

developer.chat

31 March 2024

LMOps

LMOps is a research initiative on fundamental research and technology for building AI products w/ foundation models, especially on the general technology for enabling AI capabilities w/ LLMs and Generative AI models.

订阅 AI模型

热门内容

今日:

总体:

最近浏览：

标签（标签）

AI模型

【AI模型】LLM中检查点上的检查点

在所有维度上并行化

介绍Phi-3：重新定义SLM的可能性

Phi-3 Mini是一款3.8B参数、重量轻、最先进的开放式模型

Phi-3 Mini

预期用途

主要使用案例

OpenAI与开源多语言嵌入模型

Gemma家族通过为开发人员和研究人员量身定制的模型进行扩张

真棒代码LLM

🧵 Table of Contents

LMOps : 启用人工智能功能的通用技术，包括LLM和MLLM

LMOps

标签（标签）

Search

【AI模型】LLM中检查点上的检查点

在所有维度上并行化

介绍Phi-3：重新定义SLM的可能性

Phi-3 Mini是一款3.8B参数、重量轻、最先进的开放式模型

Phi-3 Mini

预期用途

主要使用案例

OpenAI与开源多语言嵌入模型

Gemma家族通过为开发人员和研究人员量身定制的模型进行扩张

真棒代码LLM

🧵 Table of Contents

LMOps : 启用人工智能功能的通用技术，包括LLM和MLLM

LMOps