跳转到主要内容

标签(标签)

资源精选(342) Go开发(108) Go语言(103) Go(99) angular(83) LLM(79) 大语言模型(63) 人工智能(53) 前端开发(50) LangChain(43) golang(43) 机器学习(39) Go工程师(38) Go程序员(38) Go开发者(36) React(34) Go基础(29) Python(24) Vue(23) Web开发(20) Web技术(19) 精选资源(19) 深度学习(19) Java(18) ChatGTP(17) Cookie(16) android(16) 前端框架(13) JavaScript(13) Next.js(12) 安卓(11) 聊天机器人(10) typescript(10) 资料精选(10) NLP(10) 第三方Cookie(9) Redwoodjs(9) ChatGPT(9) LLMOps(9) Go语言中级开发(9) 自然语言处理(9) PostgreSQL(9) 区块链(9) mlops(9) 安全(9) 全栈开发(8) OpenAI(8) Linux(8) AI(8) GraphQL(8) iOS(8) 软件架构(7) RAG(7) Go语言高级开发(7) AWS(7) C++(7) 数据科学(7) 智能体(6) whisper(6) Prisma(6) 隐私保护(6) JSON(6) DevOps(6) 数据可视化(6) wasm(6) 计算机视觉(6) 算法(6) Rust(6) 微服务(6) 隐私沙盒(5) FedCM(5) 语音识别(5) Angular开发(5) 快速应用开发(5) 提示工程(5) Agent(5) LLaMA(5) 低代码开发(5) Go测试(5) gorm(5) REST API(5) kafka(5) 推荐系统(5) WebAssembly(5) GameDev(5) CMS(5) CSS(5) machine-learning(5) 机器人(5) 游戏开发(5) Blockchain(5) Web安全(5) nextjs(5) Kotlin(5) 低代码平台(5) 机器学习资源(5) Go资源(5) Nodejs(5) PHP(5) Swift(5) RAG架构(4) devin(4) Blitz(4) javascript框架(4) Redwood(4) GDPR(4) 生成式人工智能(4) Angular16(4) Alpaca(4) 编程语言(4) SAML(4) JWT(4) JSON处理(4) Go并发(4) 移动开发(4) 移动应用(4) security(4) 隐私(4) spring-boot(4) 物联网(4) 网络安全(4) API(4) Ruby(4) 信息安全(4) flutter(4) 专家智能体(3) Chrome(3) CHIPS(3) 3PC(3) SSE(3) 人工智能软件工程师(3) LLM Agent(3) Remix(3) Ubuntu(3) GPT4All(3) 软件开发(3) 问答系统(3) 开发工具(3) 最佳实践(3) RxJS(3) SSR(3) Node.js(3) Dolly(3) 移动应用开发(3) 低代码(3) IAM(3) Web框架(3) CORS(3) 基准测试(3) Go语言数据库开发(3) Oauth2(3) 并发(3) 主题(3) Theme(3) earth(3) nginx(3) 软件工程(3) azure(3) keycloak(3) 生产力工具(3) gpt3(3) 工作流(3) C(3) jupyter(3) 认证(3) prometheus(3) GAN(3) Spring(3) 逆向工程(3) 应用安全(3) Docker(3) Django(3) R(3) .NET(3) 大数据(3) Hacking(3) 渗透测试(3) C++资源(3) Mac(3) 微信小程序(3) Python资源(3) JHipster(3) 语言模型(2) 可穿戴设备(2) JDK(2) SQL(2) Apache(2) Hashicorp Vault(2) Spring Cloud Vault(2) Go语言Web开发(2) Go测试工程师(2) WebSocket(2) 容器化(2) AES(2) 加密(2) 输入验证(2) ORM(2) Fiber(2) Postgres(2) Gorilla Mux(2) Go数据库开发(2) 模块(2) 泛型(2) 指针(2) HTTP(2) PostgreSQL开发(2) Vault(2) K8s(2) Spring boot(2) R语言(2) 深度学习资源(2) 半监督学习(2) semi-supervised-learning(2) architecture(2) 普罗米修斯(2) 嵌入模型(2) productivity(2) 编码(2) Qt(2) 前端(2) Rust语言(2) NeRF(2) 神经辐射场(2) 元宇宙(2) CPP(2) 数据分析(2) spark(2) 流处理(2) Ionic(2) 人体姿势估计(2) human-pose-estimation(2) 视频处理(2) deep-learning(2) kotlin语言(2) kotlin开发(2) burp(2) Chatbot(2) npm(2) quantum(2) OCR(2) 游戏(2) game(2) 内容管理系统(2) MySQL(2) python-books(2) pentest(2) opengl(2) IDE(2) 漏洞赏金(2) Web(2) 知识图谱(2) PyTorch(2) 数据库(2) reverse-engineering(2) 数据工程(2) swift开发(2) rest(2) robotics(2) ios-animation(2) 知识蒸馏(2) 安卓开发(2) nestjs(2) solidity(2) 爬虫(2) 面试(2) 容器(2) C++精选(2) 人工智能资源(2) Machine Learning(2) 备忘单(2) 编程书籍(2) angular资源(2) 速查表(2) cheatsheets(2) SecOps(2) mlops资源(2) R资源(2) DDD(2) 架构设计模式(2) 量化(2) Hacking资源(2) 强化学习(2) flask(2) 设计(2) 性能(2) Sysadmin(2) 系统管理员(2) Java资源(2) 机器学习精选(2) android资源(2) android-UI(2) Mac资源(2) iOS资源(2) Vue资源(2) flutter资源(2) JavaScript精选(2) JavaScript资源(2) Rust开发(2) deeplearning(2) RAD(2)

【AI模型】LLM中检查点上的检查点

如果你一直在关注深度学习的最新消息,你就会意识到深度学习中的数据和模型非常庞大。数据集的大小可能达到PB级,模型本身的大小也可能达到数百GB。这意味着,即使是模型本身也无法放入标准GPU芯片的内存中。高效和智能的并行化以及可恢复性在深度学习领域至关重要。

最近的一些文献主要关注LLM系统的基础设施配置。如果你了解VAST,你就会知道这正是我们的专长,因为我们不仅喜欢谈论数据基础设施,还喜欢谈论所有可以推动技术从数据中获得最大价值的神奇方法。因此,事不宜迟,我们想向您介绍并行性如何影响当今最复杂模型中的检查点和恢复操作。

在所有维度上并行化


对于LLM和其他大规模深度学习算法中固有的大型数据集和大型模型,数据和模型本身都太大,无法放入内存。例如,具有数十亿个参数的典型LLM将不适合内存。GPT-3的大小大于500 GB,典型的GPU限制为80 GB的VMEM。此外,单个A100 GPU需要几百年的时间来训练GPT-3(实际上需要300多年)。因此,多维并行性对于训练和微调模型至关重要。

这一论点基于该领域的广泛研究,特别是斯坦福大学、英伟达和微软研究院的开创性论文《威震天LM大规模训练》。作者提出,并在现场得到证实,三种并行性的综合允许LLM中更易于管理和恢复的工作负载:

介绍Phi-3:重新定义SLM的可能性

我们很高兴介绍Phi-3,这是一个由微软开发的开放式人工智能模型家族。Phi-3模型是可用的功能最强大、成本效益最高的小型语言模型(SLM),在各种语言、推理、编码和数学基准测试中都优于相同大小和下一大小的模型。此版本为客户扩展了高质量模型的选择范围,在他们编写和构建生成型人工智能应用程序时提供了更实用的选择。

从今天开始,Phi-3-mini,一种3.8B语言模型,可在Microsoft Azure AI Studio、Hugging Face和Ollama上使用。

Phi-3 Mini是一款3.8B参数、重量轻、最先进的开放式模型

Phi-3 Mini


Phi-3 Mini是一个3.8B参数、轻量级、最先进的开放模型,使用Phi-3数据集进行训练,包括合成数据和过滤后的公开网站数据,重点关注高质量和推理密集的属性。
该模型经过了一个后期训练过程,其中包括监督微调和直接偏好优化,以确保精确的指令遵守和稳健的安全措施。
当根据测试常识、语言理解、数学、代码、长上下文和逻辑推理的基准进行评估时,Phi-3 Mini-4K-Instruction在参数不到130亿的模型中展示了稳健和最先进的性能。

预期用途


主要使用案例


该模型旨在以英语进行商业和研究用途。该模型为需要1)内存/计算受限环境2)延迟受限场景3)强推理(尤其是数学和逻辑)4)长上下文的应用程序提供了用途
我们的模型旨在加速对语言和多模式模型的研究,用作生成人工智能功能的构建块。

OpenAI与开源多语言嵌入模型

选择最适合您的数据的模型

OpenAI最近发布了他们的新一代嵌入模型,称为嵌入v3,他们将其描述为性能最高的嵌入模型,具有更高的多语言性能。这些模型分为两类:一类较小,称为text-embedding-3-small,另一类较大,功能更强大,称为text-embedding-3-large。

关于这些模型的设计和训练方式,披露的信息很少。作为他们之前发布的嵌入模型(2022年12月,ada-002模型类),OpenAI再次选择了一种封闭源方法,其中模型只能通过付费的API访问。

但是,这些表演是否如此之好,以至于值得付出代价?

这篇文章的动机是将这些新模型的性能与开源模型的性能进行实证比较。我们将依赖于数据检索工作流,在该工作流中,必须在给定用户查询的情况下找到语料库中最相关的文档。

我们的语料库将是《欧洲人工智能法案》,该法案目前正处于最后的验证阶段。这个语料库的一个有趣的特点是,除了是世界上第一个人工智能的法律框架外,它还有24种语言。这使得可以比较不同语言族的数据检索准确性。

该职位将经历以下两个主要步骤: