跳转到主要内容

【AI新闻】创业公司加速了光速计算的发展

由三位麻省理工学院校友创立的Lightmatter正在使用光子技术来重塑芯片的通信和计算方式。

我们将越来越小的晶体管塞进芯片的能力使今天的计算时代无处不在。但这种方法最终达到了极限,一些专家宣布摩尔定律和一个相关原理,即德纳德标度的终结。

这些事态发展来得正是时候。近年来,对计算能力的需求激增,这在很大程度上要归功于人工智能的兴起,而且没有放缓的迹象。

现在,由三位麻省理工学院校友创立的Lightmatter公司正在通过重新思考芯片的命脉来继续计算的显著进步。该公司不仅依靠电力,还使用光进行数据处理和传输。该公司的前两种产品,一种是专门从事人工智能操作的芯片,另一种是促进芯片之间数据传输的互连,使用光子和电子来推动更高效的操作。

Lightmatter联合创始人兼首席执行官Nicholas Harris博士说:“我们正在解决的两个问题是‘芯片是如何说话的?’和‘你是如何进行这些人工智能计算的?’”。“通过我们的前两款产品Envise和Passage,我们正在解决这两个问题。”

【转录实时音频流】使用OpenAI Whisper近乎实时地转录实时音频流,用于关键字监控

在这篇文章中,我演示了如何使用Python中的OpenAI Whisper近乎实时地转录实时音频流。我们这样做是为了监视流中的特定关键字。此外,转录后的文本会记录时间戳以供进一步使用。通过对转录的文本进行模糊匹配,我们可以找到对关键词的提及。然后,我们通过信号信使向包含口语段落相关部分的团体或个人触发一条信息。

背景

这是一个在周末建立的快速POC:为了赢得比赛,我想监控当地电台是否提到了一些关键词。这需要迅速完成,这产生了一个简单的解决方案。此外,它必须尽可能节约资源,以最大限度地降低基础设施成本。虽然它并不是以稳定性为主要关注点来构建的,但它实际上在几周内表现完美,没有任何停机时间。因此,目标实现了!

所有代码在此回购中都可用。在下文中,我将介绍解决方案的总体结构,并解释代码的一些相关部分。

概述

该解决方案由三部分组成:

save_stream.py从实时音频流中以30秒为单位连续保存.mp3文件

transcript.py使用OpenAI Whisper永久转录每个音频块。然后,它使用模糊匹配来监控口语中的关键词。在比赛中,它调用msg_group_via_signal.sh

【语音识别】如何运行OpenAI的Whisper语音识别模型

OpenAI的Whisper模型可以对多种语言进行语音识别。在查看此简单指南中的性能分析之前,我们将学习如何运行Whisper。

昨天,OpenAI发布了其Whisper语音识别模型。Whisper加入了目前可用的其他开源语音到文本模型,如Kaldi、Vosk、wav2vec 2.0等,并与最先进的语音识别结果相匹配。

在本文中,我们将学习如何安装和运行Whisper,还将深入分析Whisper的准确性、推理时间和运行成本。

#如何运行OpenAI的Whisper

在本节中,我们将学习如何安装和使用Whisper。如果您已经启动并运行了Whisper,您可以跳到Whisper分析或更复杂的Whisper高级用法。

步骤1:安装依赖项

Whisper需要Python3.7+和最新版本的PyTorch(我们使用了PyTorch 1.12.1,没有问题)。如果您还没有Python和PyTorch,请立即安装它们。

Whisper还需要FFmpeg,一个音频处理库。如果您的计算机上尚未安装FFmpeg,请使用以下命令之一进行安装。

【大语言模型】如何在Python中使用开源Whisper ASR

Whisper是最先进的自动语音识别(ASR)系统,是OpenAI的创意。它的目的是将口语转录成书面形式,这一过程有多种用途,包括从转录服务到语音控制助理的所有内容。这个答案将阐明如何使用Whisper ASR系统的开源版本,特别是在Python中。

设置环境

在理解代码之前,确保一个最佳的环境是很重要的。这需要在您的系统上安装Python,以及Whisper Python包。后者可以使用pip安装:

pip install -U openai-whisper

安装Whisper

此外,有必要安装FFMPEG,这是一个命令行实用程序,旨在处理包括音频和视频在内的多媒体文件。根据您系统的操作系统,可以使用相应的软件包管理器进行下载和安装。

【大语言模型】如何用Whisper转录音频:2023年综合指南

在当今快节奏的数字世界中,将口语转换为书面文本已成为专业人士和个人的宝贵工具。无论你是记录采访的记者、记录讲座的学生,还是记录会议的商业专业人士,准确转录音频的能力都至关重要。进入由OpenAI最先进的Whisper模型提供支持的音频API,这是语音转文本技术领域的游戏规则改变者。

音频API包含两个强大的端点:转录和翻译。这些都建立在Whisper大v2模型的基础上,该模型以擅长处理各种语言任务而闻名。这个工具不仅仅是将音频转录成文本;它还能够将各种语言的口语翻译成英语。无论您是处理播客、重要的商务电话还是多语言会议,Audio API都能满足各种需求。

在深入探讨如何使用这项尖端技术的细节之前,重要的是要注意几个关键方面。API目前支持高达25 MB的文件上载,可容纳常见的音频格式,如mp3、mp4、mpeg、mpga、m4a、wav和webm。这种灵活性确保了大多数标准音频文件可以在不需要fr转换的情况下轻松处理。

Whisper是开源的。基于大规模弱监督的鲁棒语音识别:https://github.com/openai/whisper

[大语言模型] Mistral 7B 模型介绍

Mistral人工智能团队很自豪地发布了Mistral 7B,这是迄今为止最强大的语言模型。

Mistral 7B 简述

Mistral 7B是一个7.3B参数模型,它:

  • 在所有基准测试中均超过Llama 2 13B
  • 在许多基准测试中表现超过Llama 1 34B
  • 接近CodeLlama 7B的代码性能,同时保持良好的英语任务
  • 使用分组查询注意力(GQA)进行更快的推理
  • 使用滑动窗口注意力(SWA)以较小的成本处理较长的序列
  • 我们将在Apache 2.0许可证下发布Mistral 7B,它可以不受限制地使用。
  • 下载它并在任何地方(包括本地)使用我们的参考实现,
  • 使用vLLM推理服务器和skypilot在任何云(AWS/GCP/Azure)上部署它,
  • 在HuggingFace上使用。

Mistral 7B很容易在任何任务中进行微调。作为演示,我们提供了一个针对聊天进行微调的模型,它的性能优于Llama 2 13B聊天。

【语音识别】使用Whisper Large V3从音频或视频内容进行疯狂的快速文本转录

介绍

转录服务在各种行业中被用来将音频或视频内容转换为文本。从转录服务中受益的一些行业包括:

医疗保健专业人员

医疗转录在医疗保健行业发挥着至关重要的作用,可以高精度地转录医生的记录并维护医疗记录。

法律/法律行业

律师事务所、律师助理、法庭记者和律师将转录服务用于法律目的,如转录证词和法庭听证会。

企业

企业使用转录服务将董事会会议、会议、采访和其他活动转录成无错误的转录本,以便更好地决策和将来参考。

媒体与大众传播

媒体专业人员,包括记者、视频制作人、电影制作人和文案,使用转录服务为文章、新闻稿和字幕转录采访和其他内容。

数字营销

数字营销人员和内容战略家使用转录师将播客、网络研讨会和其他材料转换为文本,用于博客文章和内容创作。

其他行业

其他受益于转录服务的行业包括市场研究人员、视频和音频播客、自由撰稿人、作家和主讲人。