跳转到主要内容

【人工智能】Whisper v3 OpenAI语音转文本模型:完整指南

你猜怎么着?Sam Altman刚刚在DevDay主题演讲中透露了一些很棒的东西,那就是来自OpenAI的开源Whisper v3。这不仅仅是对已经令人印象深刻的Whisper v2的升级;这就像是进入了语音识别的未来。

可以将大v3想象成您熟悉的语音转文本工具,但它功能强大,能流利地使用多种语言。现在,这很重要,对吧?

但最棒的是,你不需要一些高端装备就可以使用它。如果你担心你的设置可能跟不上,我们会为你提供Replicate。

无论你家里有什么技术,这都是你体验大v3所有酷炫功能的方式。

那么,准备好看看Whisper large v3是怎么回事了吗?让我们深入了解一下为什么这是镇上的热门话题!

【AI应用】初窥Windows AI 工作室

微软的桌面人工智能开发环境提供了早期预览,可以让您构建在PC和移动设备上运行的小型语言模型。

微软利用其Ignite 2023活动中以开发者为中心的部分介绍了一系列人工智能开发工具。Azure AI Studio使用Azure OpenAI模型或其他模型支持云托管应用程序的大规模人工智能开发,而Copilot Studio则通过OpenAI支持的“增强”扩展了旧的Power Virtual Agents低代码人工智能工具

微软还宣布了第三个工具,但它花了一段时间才出现在开发者的电脑上。该工具是Windows AI Studio,现在可以预览。让我们来看看。

【开源软件】最好的开源软件-2022-第28名 EleutherAI

bos 2022 eleutherai

GPT-NeoX-20B是一个新的200亿参数的自然语言处理模型,由早期GPT-J的发行商EleutherAI创建,这是一个60亿参数的模型。与OpenAI的GPT-3相比,这些模型可能看起来很小,GPT-3有1750亿个参数,但它们使用LAMBADA、Winogrande、Hellaswag和其他数据集取得了强大的基准测试结果。你可以测试GPT-J的句子完成,并执行更高级的NLP任务,如翻译和分类。

EleutherAI推动开源如此强大的模型的背后是什么?该项目的创始人之一Conor Leahy解释道,“我们必须把人工智能视为思维与我们不同的奇怪外星人。”目标是让尽可能多的研究人员能够使用这项技术,这样我们就可以学会如何控制它。

——Isaac Sacolik

【开源软件】最好的开源软件-2022-第27名 Stable Diffusion

Stable Diffusion是一个文本到图像的人工智能模型,可以生成质量惊人的图像。该项目成立仅两个月,就如野火般蔓延,世界各地的爱好者已经在对原作进行改进,以加快生成速度,在内存较低的GPU上运行,并增加内画和外画支持。他们甚至在M1驱动的MacBooks上运行了Stable Diffusion。

Stability.ai花了60万美元训练这个模型,并立即将其作为开源(与OpenAI的DALL-E形成对比)。虽然这样的模型肯定会引发人们对数据集管理和创建NSFW图像的能力的担忧,但几乎可以肯定的是,这项技术最好掌握在每个人手中,而不仅仅是少数几家大公司手中,无论是为了推进研究,还是为了在未来几年创作艺术作品。——Ian Pointer

【LangChain】与文档聊天:将OpenAI与LangChain集成的终极指南

欢迎来到人工智能的迷人世界,在那里,人与机器之间的通信越来越模糊。在这篇博客文章中,我们将探索人工智能驱动交互的一个令人兴奋的新前沿:与您的文本文档聊天!借助OpenAI模型和创新的LangChain框架的强大组合,您现在可以将静态文档转化为交互式对话。

你准备好彻底改变你使用文本文件的方式了吗?然后系好安全带,深入了解我们将OpenAI与LangChain集成的终极指南,我们将一步一步地为您介绍整个过程。

什么是LangChain?

LangChain是一个强大的框架,旨在简化大型语言模型(LLM)应用程序的开发。通过为各种LLM、提示管理、链接、数据增强生成、代理编排、内存和评估提供单一通用接口,LangChain使开发人员能够将LLM与真实世界的数据和工作流无缝集成。该框架允许LLM通过合并外部数据源和编排与不同组件的交互序列,更有效地解决现实世界中的问题。

我们将在下面的示例应用程序中使用该框架从文本文档源生成嵌入,并将这些内容持久化到Chroma矢量数据库中。然后,我们将使用LangChain在后台使用OpenAI语言模型来查询用户提供的问题,以处理请求。

这将使我们能够与自己的文本文档聊天。

【生成人工智能】Ray如何解决生成人工智能基础设施的常见生产挑战

这是我们生成人工智能博客系列的第一部分。在这篇文章中,我们讨论了如何使用Ray来生产常见的生成模型工作负载。即将发布的一篇博客将深入探讨Alpa等项目为什么要使用Ray来扩展大型模型。

生成的图像和语言模型有望改变企业的设计、支持、开发等方式。本博客重点关注围绕基础模型支持工作负载生产部署的基础设施挑战,以及Ray,一个用于扩展ML工作负载的领先解决方案,如何应对这些挑战。最后,我们制定了一个改进路线图,以使事情变得更容易。

如今,领先的人工智能组织使用Ray大规模训练大型语言模型(LLM)(例如,OpenAI训练ChatGPT,Cohere训练其模型,EleutherAI训练GPT-J,Alpa训练多节点训练和服务)。然而,这些模型之所以如此令人兴奋,其中一个原因是可以对开源版本进行微调和部署,以解决特定问题,而无需从头开始训练。事实上,社区中的用户越来越多地询问如何使用Ray来协调他们自己的生成人工智能工作负载,建立由大型玩家训练的基础模型。

在下表中,我们用绿色突出显示了常见的“生产规模”需求(通常从1-100个节点开始)。这包括以下问题:

【开发工具】7人工智能驱动的开发工具:改变发展格局

人工智能正在改变世界,软件开发也不例外。人工智能正在帮助开发人员创建比以往任何时候都更快、更智能、更高效的应用程序。在这篇文章中,我们将讨论7种人工智能驱动的工具,它们正在为开发者改变游戏。

1. TabNine

 

【LLM】人工智能驱动的医学知识:罕见疾病护理的革命性变革

[编者按]:这是杰克·西蒙的客串帖子,他最近参加了威廉姆斯学院的黑客马拉松。他构建了一个由LangChain驱动的聊天机器人,重点关注阑尾癌症,旨在让有需要的人更容易获得专业知识。如果你有兴趣为另一种罕见的情况构建聊天机器人,请联系jms9@williams.edu.

我们之所以强调这一点,是因为我们认为这是问答系统的一个极好且不受重视的用例。虽然底层技术可能与其他问答应用程序类似,但我们发现这种用例对社会的影响特别大。

上周,我参加了威廉姆斯学院的一场黑客马拉松,在那里我建立了一个聊天机器人,它改变了我们获取罕见疾病信息的方式。通过结合文献综述、临床试验数据和学术论文,我创建了一个由LangChain驱动的聊天机器人,它可以提供有关一种特殊罕见疾病——阑尾癌症的宝贵信息。

 


虽然这个演示侧重于一种罕见的疾病,但我计划通过添加尽可能多的罕见疾病信息来扩展聊天机器人的知识库。最终愿景是创建一个人工智能驱动的应用程序,为患者和医疗保健专业人员提供可靠的信息来源。

【LLM】LangChain<>非结构化

LangChain的核心价值支柱之一是能够将大型语言模型与您自己的文本数据相结合。有多种(四种!)不同的方法可以做到这一点,并且可以为许多不同的应用程序提供动力。

使用文本数据的上游一步是将数据转换为文本形式。由于存在多种不同的格式,这可能相当棘手。

unstructured.io

Unstructured是一家致力于将自然语言数据从原始数据转换为可供机器使用的数据的公司。他们实现这一点的主要方法之一是使用开源Python包。此包支持多种不同类型的文件扩展名:.txt、.docx、.pptx、.jpg、.png、.eml、.html和.pdf文档。