跳转到主要内容

标签(标签)

资源精选(342) Go开发(108) Go语言(103) Go(99) angular(82) LLM(75) 大语言模型(63) 人工智能(53) 前端开发(50) LangChain(43) golang(43) 机器学习(39) Go工程师(38) Go程序员(38) Go开发者(36) React(33) Go基础(29) Python(24) Vue(22) Web开发(20) Web技术(19) 精选资源(19) 深度学习(19) Java(18) ChatGTP(17) Cookie(16) android(16) 前端框架(13) JavaScript(13) Next.js(12) 安卓(11) 聊天机器人(10) typescript(10) 资料精选(10) NLP(10) 第三方Cookie(9) Redwoodjs(9) LLMOps(9) Go语言中级开发(9) 自然语言处理(9) PostgreSQL(9) 区块链(9) mlops(9) 安全(9) 全栈开发(8) ChatGPT(8) OpenAI(8) Linux(8) AI(8) GraphQL(8) iOS(8) 软件架构(7) Go语言高级开发(7) AWS(7) C++(7) 数据科学(7) whisper(6) Prisma(6) 隐私保护(6) RAG(6) JSON(6) DevOps(6) 数据可视化(6) wasm(6) 计算机视觉(6) 算法(6) Rust(6) 微服务(6) 隐私沙盒(5) FedCM(5) 语音识别(5) Angular开发(5) 快速应用开发(5) 提示工程(5) Agent(5) LLaMA(5) 低代码开发(5) Go测试(5) gorm(5) REST API(5) 推荐系统(5) WebAssembly(5) GameDev(5) CMS(5) CSS(5) machine-learning(5) 机器人(5) 游戏开发(5) Blockchain(5) Web安全(5) Kotlin(5) 低代码平台(5) 机器学习资源(5) Go资源(5) Nodejs(5) PHP(5) Swift(5) 智能体(4) devin(4) Blitz(4) javascript框架(4) Redwood(4) GDPR(4) 生成式人工智能(4) Angular16(4) Alpaca(4) 编程语言(4) SAML(4) JWT(4) JSON处理(4) Go并发(4) kafka(4) 移动开发(4) 移动应用(4) security(4) 隐私(4) spring-boot(4) 物联网(4) nextjs(4) 网络安全(4) API(4) Ruby(4) 信息安全(4) flutter(4) 专家智能体(3) Chrome(3) CHIPS(3) 3PC(3) SSE(3) 人工智能软件工程师(3) LLM Agent(3) Remix(3) Ubuntu(3) GPT4All(3) 软件开发(3) 问答系统(3) 开发工具(3) 最佳实践(3) RxJS(3) SSR(3) Node.js(3) Dolly(3) 移动应用开发(3) 低代码(3) IAM(3) Web框架(3) CORS(3) 基准测试(3) Go语言数据库开发(3) Oauth2(3) 并发(3) 主题(3) Theme(3) earth(3) nginx(3) 软件工程(3) azure(3) keycloak(3) 生产力工具(3) gpt3(3) 工作流(3) C(3) jupyter(3) 认证(3) prometheus(3) GAN(3) Spring(3) 逆向工程(3) 应用安全(3) Docker(3) Django(3) R(3) .NET(3) 大数据(3) Hacking(3) 渗透测试(3) C++资源(3) Mac(3) 微信小程序(3) Python资源(3) JHipster(3) 大型语言模型(2) 语言模型(2) 可穿戴设备(2) JDK(2) SQL(2) Apache(2) Hashicorp Vault(2) Spring Cloud Vault(2) Go语言Web开发(2) Go测试工程师(2) WebSocket(2) 容器化(2) AES(2) 加密(2) 输入验证(2) ORM(2) Fiber(2) Postgres(2) Gorilla Mux(2) Go数据库开发(2) 模块(2) 泛型(2) 指针(2) HTTP(2) PostgreSQL开发(2) Vault(2) K8s(2) Spring boot(2) R语言(2) 深度学习资源(2) 半监督学习(2) semi-supervised-learning(2) architecture(2) 普罗米修斯(2) 嵌入模型(2) productivity(2) 编码(2) Qt(2) 前端(2) Rust语言(2) NeRF(2) 神经辐射场(2) 元宇宙(2) CPP(2) 数据分析(2) spark(2) 流处理(2) Ionic(2) 人体姿势估计(2) human-pose-estimation(2) 视频处理(2) deep-learning(2) kotlin语言(2) kotlin开发(2) burp(2) Chatbot(2) npm(2) quantum(2) OCR(2) 游戏(2) game(2) 内容管理系统(2) MySQL(2) python-books(2) pentest(2) opengl(2) IDE(2) 漏洞赏金(2) Web(2) 知识图谱(2) PyTorch(2) 数据库(2) reverse-engineering(2) 数据工程(2) swift开发(2) rest(2) robotics(2) ios-animation(2) 知识蒸馏(2) 安卓开发(2) nestjs(2) solidity(2) 爬虫(2) 面试(2) 容器(2) C++精选(2) 人工智能资源(2) Machine Learning(2) 备忘单(2) 编程书籍(2) angular资源(2) 速查表(2) cheatsheets(2) SecOps(2) mlops资源(2) R资源(2) DDD(2) 架构设计模式(2) 量化(2) Hacking资源(2) 强化学习(2) flask(2) 设计(2) 性能(2) Sysadmin(2) 系统管理员(2) Java资源(2) 机器学习精选(2) android资源(2) android-UI(2) Mac资源(2) iOS资源(2) Vue资源(2) flutter资源(2) JavaScript精选(2) JavaScript资源(2) Rust开发(2) deeplearning(2) RAD(2)

category

ChatGPT等人工智能聊天机器人和其他由大型语言模型驱动的应用程序已经得到了广泛的应用,但它们的可靠性却臭名昭著。一个常见的假设是,扩大驱动这些应用程序的模型将提高其可靠性,例如,通过增加它们训练的数据量或用于处理信息的参数数量。然而,根据一项新的研究,这些语言模型的更新和更大版本实际上变得更加不可靠,而不是更少。

大型语言模型(LLM)本质上是智能手机用来预测一个人正在键入的单词其余部分的自动补全功能的超级版本。ChatGPT,也许是最著名的LLM驱动的聊天机器人,已经通过了法学院和商学院的考试,成功回答了软件编码工作的面试问题,撰写了房地产清单,并开发了广告内容。

但法学硕士经常犯错误。例如,6月份的一项研究发现,ChatGPT在生成函数式代码方面取得了极其广泛的成功,成功率从微不足道的0.66%到89%不等,具体取决于任务的难度、编程语言和其他因素。

研究团队已经探索了一系列策略,使LLM更可靠。这些包括增加模型的训练数据量或计算能力,以及使用人类反馈来微调模型并提高其输出。随着时间的推移,LLM的性能总体上有所提高。例如,早期的LLM在简单的加法(如“20+183”)上失败了。现在LLM成功地执行了涉及50位以上数字的加法。

然而,上周发表在《自然》杂志上的这项新研究发现,“最新的LLM可能看起来令人印象深刻,能够解决一些非常复杂的任务,但它们在各个方面都不可靠,”研究合著者、西班牙瓦伦西亚理工大学的研究助理Lexin Zhou说。更重要的是,他说,“这一趋势似乎没有显示出明显的改善,而是相反。”

可靠性的降低部分是由于最近的模型发生了变化,使得它们不太可能说自己不知道答案,或者给出不回答问题的答案。相反,后来的模型更有可能自信地生成错误的答案。

LLMs在轻松和艰巨的任务中表现如何


研究人员探索了几个LLM家族:OpenAI的10个GPT模型,Meta的10个LLaMA模型,以及BigScience倡议的12个BLOOM模型。在每个家庭中,最新的型号都是最大的。研究人员从三个关键维度关注LLM的可靠性。

科学家们研究的一个途径是LLM在人们认为简单的任务和人类认为困难的任务上的表现如何。例如,一个相对容易的任务是添加24427和7120,而一个非常困难的任务是增加18936030102323501638430和98832380858765261900。

与人们认为容易的任务相比,LLM在人类认为具有挑战性的任务上通常不那么准确,这并不奇怪。然而,即使在简单的任务上,人工智能系统也不是100%准确。周说:“我们发现,没有安全的操作条件可以让用户确定这些LLM可以信任的地方。”。

此外,新的研究发现,与之前的LLM相比,最新的模型在处理高难度任务时提高了性能,但在处理低难度任务时没有。这可能是由于LLM开发人员专注于越来越难的基准测试,而不是简单和困难的基准测试。周说:“我们的结果揭示了开发人员实际上在优化什么。”。

聊天机器人无法应对不确定性


周团队研究的LLM表现的第二个方面是模型避免回答用户问题的倾向。研究人员发现,最近的LLM在回答时不那么谨慎——他们更有可能勇往直前,自信地提供不正确的答案。此外,尽管人们倾向于避免回答超出其能力范围的问题,但最近的LLM并没有在任务难度增加时避免提供答案。

周说,这种轻率可能源于“让语言模型试图说出看似有意义的东西的愿望”,即使模型处于不确定的领域。他补充道,这让人类承担了在LLM输出中发现错误的负担。

最后,研究人员检查了给LLM的任务或“提示”是否会影响他们的表现。他们发现,最新的LLM仍然对提示的陈述方式高度敏感,例如,在加法提示中使用“加号”而不是“+”。

聊天机器人如何扰乱人类的期望


英国剑桥大学实验心理学教授Lucy Cheke表示,这些发现突显了LLM没有显示出符合人类期望的可靠性模式的方式,她在人工智能模型中测量认知能力。

没有参与这项新研究的Cheke说:“如果有人是数学老师,也就是说,能做难数学的人,那么他们擅长数学,因此我可以认为他们是简单数学问题的可靠来源。”。“同样,如果那个人能正确回答‘2354+234’,那么我可能会相信他们对‘2354+334’的回答。但这两种假设都不适用于这些更大的模型。”

此外,研究发现,人工监督无法弥补所有这些问题。例如,人们认识到有些任务非常困难,但仍然经常期望LLM是正确的,即使他们被允许对正确性说“我不确定”。研究人员表示,这种趋势表明人们对模型过于自信。

Cheke说:“人们越来越信任那些主要产生正确信息的系统,但这些系统中混入了足够多的看似合理但错误的信息,从而造成了真正的问题。”。“随着人们越来越依赖这些系统来回答他们无法发现错误答案的复杂问题,这变得尤其成问题。”

尽管有这些发现,周警告不要把LLM看作无用的工具。他说:“它们对于许多应用程序仍然非常有用,例如,在用户可以容忍错误的任务中。”。“不会飞的汽车并非不可靠,因为没有人期望汽车会飞。早期的LLM就是这样——人类对它们没有太大期望。但在过去几年里,随着LLM变得越来越强大,人们开始依赖它们,也许是太依赖了。”

周也不认为这种不可靠性是一个无法解决的问题。他说:“如果新发现在下一代LLM中得到考虑,我们可能会开始看到更多的LLM被采用,对LLM的怀疑也会减少。”。但在研究人员找到解决方案之前,他计划提高人们对过度依赖LLM和依赖人类监督LLM的危险的认识。