大语言模型 | 开发者人工智能社区 --开发者开聊

【LLM】2023年大型语言模型培训

pgmr.cloud

20 May 2023

2022年底，大型语言模型（LLM）在互联网上掀起了风暴，OpenAI的ChatGPT在推出5天后就达到了100万用户。ChatGPT的功能和广泛的应用程序可以被认可为GPT-3语言模型所具有的1750亿个参数

尽管使用像ChatGPT这样的最终产品语言模型很容易，但开发一个大型语言模型需要大量的计算机科学知识、时间和资源。我们撰写这篇文章是为了让商业领袖了解：

大型语言模型的定义
大型语言模型示例
大型语言模型的体系结构
大型语言模型的训练过程，

这样他们就可以有效地利用人工智能和机器学习。

什么是大型语言模型？

大型语言模型是一种机器学习模型，它在大型文本数据语料库上进行训练，以生成各种自然语言处理（NLP）任务的输出，如文本生成、问答和机器翻译

大型语言模型通常基于深度学习神经网络，如Transformer架构，并在大量文本数据上进行训练，通常涉及数十亿个单词。较大的模型，如谷歌的BERT模型，使用来自各种数据源的大型数据集进行训练，这使它们能够为许多任务生成输出。

如果您是大型语言模型的新手，请查看我们的“大型语言模型：2023年完整指南”文章。

阅读更多关于【LLM】2023年大型语言模型培训
登录发表评论

【LLM】大型语言模型综述论文

pgmr.cloud

19 May 2023

今天我将与大家分享一篇精彩的论文。这项调查提供了LLM文献的最新综述，这对研究人员和工程师来说都是一个有用的资源。

为什么选择LLM？

当参数尺度超过一定水平时，这些扩展的语言模型不仅实现了显著的性能改进，而且还表现出一些小规模语言模型（如BERT）所不具备的特殊能力（如上下文学习）。

为了区分参数尺度的差异，研究界为显著大小的PLM（例如，包含数百亿或数千亿个参数）创造了“大型语言模型”（LLM）一词。

特别是，这里的研究人员关注LLM的四个主要方面，即预训练、适应调整、利用和能力评估。此外，他们还总结了开发LLM的可用资源，并讨论了未来方向的剩余问题。

近年来现有大型语言模型（大小大于10B）的时间表。他们用黄色标记开源LLM。

LLM

阅读更多关于【LLM】大型语言模型综述论文
登录发表评论

【LLM】大型语言模型综述

pgmr.cloud

19 May 2023

阅读更多关于【LLM】大型语言模型综述
登录发表评论

【LLM】Free Dolly：推出世界上第一个真正开放的指令调谐LLM

pgmr.cloud

19 May 2023

两周前，我们发布了Dolly，这是一个大型语言模型（LLM），经过不到30美元的训练，可以展示类似ChatGPT的人机交互（又称指令跟随）。今天，我们将发布Dolly 2.0，这是第一个开源的指令遵循LLM，它对授权用于研究和商业用途的人工生成指令数据集进行了微调。

Dolly 2.0是一个基于EleutherAI pythia模型家族的12B参数语言模型，专门针对Databricks员工众包的新的、高质量的人工生成指令跟踪数据集进行了微调。

我们正在开源Dolly 2.0的全部内容，包括训练代码、数据集和模型权重，所有这些都适合商业使用。这意味着任何组织都可以创建、拥有和定制功能强大的LLM，这些LLM可以与人对话，而无需为API访问或与第三方共享数据付费。

在Jupyter笔记本中使用Python语言链在Mac上运行GPT4All

developer.chat

14 May 2023

在过去的三周左右时间里，我一直在关注本地运行的大型语言模型（LLM）的疯狂开发速度，从llama.cpp开始，然后是alpaca，最近是（？！）gpt4all。

在那段时间里，我的笔记本电脑（2015年年中的Macbook Pro，16GB）在修理厂里呆了一个多星期，直到现在我才真正有了一个快速的游戏机会，尽管我10天前就知道我想尝试什么样的东西，而这在过去几天才真正成为可能。

根据这个要点，以下脚本可以作为Jupyter笔记本下载 this gist.

【langchain】在单个文档知识源的上下文中使用langchain对GPT4All运行查询

developer.chat

14 May 2023

In the previous post, Running GPT4All On a Mac Using Python langchain in a Jupyter Notebook, 我发布了一个简单的演练，让GPT4All使用langchain在2015年年中的16GB Macbook Pro上本地运行。在这篇文章中，我将提供一个简单的食谱，展示我们如何运行一个查询，该查询通过从单个基于文档的已知源检索的上下文进行扩展。

I’ve updated the previously shared notebook here to include the following…

基于文档的知识源支持的示例查询

使用langchain文档中的示例进行示例文档查询。

【ChatGPT】提示设计的艺术：使用清晰的语法

pgmr.cloud

14 May 2023

探索清晰的语法如何使您能够将意图传达给语言模型，并帮助确保输出易于解析

All images were generated by Scott and Marco.

这是与Marco Tulio Ribeiro共同撰写的关于如何使用指导来控制大型语言模型（LLM）的系列文章的第一部分。我们将从基础知识开始，逐步深入到更高级的主题。

在这篇文章中，我们将展示清楚的语法使您能够向LLM传达您的意图，并确保输出易于解析（如保证有效的JSON）。为了清晰和再现性，我们将从开源的StableLM模型开始，无需微调。然后，我们将展示相同的想法如何应用于像ChatGPT/GPT-4这样的微调模型。下面的所有代码都可以放在笔记本上，如果你愿意的话可以复制。

【LLM】LangChain 资料大全

pgmr.cloud

12 May 2023

阅读更多关于【LLM】LangChain 资料大全
登录发表评论

【LLM】LangChian自动评估（ Auto-Evaluator ）机会

pgmr.cloud

12 May 2023

Auto-Evaluator Opportunities

编者按：这是兰斯·马丁的一篇客座博客文章。

TL;DR

我们最近开源了一个自动评估工具，用于对LLM问答链进行评分。我们现在发布了一个开源、免费的托管应用程序和API，以扩展可用性。下面我们将讨论一些进一步改进的机会。

上下文

文档问答是一个流行的LLM用例。LangChain可以轻松地将LLM组件（例如，模型和检索器）组装成支持问答的链：输入文档被分割成块并存储在检索器中，在给定用户问题的情况下检索相关块并传递给LLM以合成答案。

问题

质量保证系统的质量可能有很大差异；我们已经看到由于特定的参数设置而产生幻觉和回答质量差的情况。但是，（1）评估答案质量和（2）使用此评估来指导改进的QA链设置（例如，块大小、检索到的文档数）或组件（例如，模型或检索器选择）并不总是显而易见的。

订阅大语言模型

Search

什么是大型语言模型？

为什么选择LLM？

基于文档的知识源支持的示例查询

上下文

问题