【转录实时音频流】使用OpenAI Whisper近乎实时地转录实时音频流,用于关键字监控
在这篇文章中,我演示了如何使用Python中的OpenAI Whisper近乎实时地转录实时音频流。我们这样做是为了监视流中的特定关键字。此外,转录后的文本会记录时间戳以供进一步使用。通过对转录的文本进行模糊匹配,我们可以找到对关键词的提及。然后,我们通过信号信使向包含口语段落相关部分的团体或个人触发一条信息。
背景
这是一个在周末建立的快速POC:为了赢得比赛,我想监控当地电台是否提到了一些关键词。这需要迅速完成,这产生了一个简单的解决方案。此外,它必须尽可能节约资源,以最大限度地降低基础设施成本。虽然它并不是以稳定性为主要关注点来构建的,但它实际上在几周内表现完美,没有任何停机时间。因此,目标实现了!
所有代码在此回购中都可用。在下文中,我将介绍解决方案的总体结构,并解释代码的一些相关部分。
概述
该解决方案由三部分组成:
save_stream.py从实时音频流中以30秒为单位连续保存.mp3文件
transcript.py使用OpenAI Whisper永久转录每个音频块。然后,它使用模糊匹配来监控口语中的关键词。在比赛中,它调用msg_group_via_signal.sh
【语音识别】如何运行OpenAI的Whisper语音识别模型
OpenAI的Whisper模型可以对多种语言进行语音识别。在查看此简单指南中的性能分析之前,我们将学习如何运行Whisper。
昨天,OpenAI发布了其Whisper语音识别模型。Whisper加入了目前可用的其他开源语音到文本模型,如Kaldi、Vosk、wav2vec 2.0等,并与最先进的语音识别结果相匹配。
在本文中,我们将学习如何安装和运行Whisper,还将深入分析Whisper的准确性、推理时间和运行成本。
#如何运行OpenAI的Whisper
在本节中,我们将学习如何安装和使用Whisper。如果您已经启动并运行了Whisper,您可以跳到Whisper分析或更复杂的Whisper高级用法。
步骤1:安装依赖项
Whisper需要Python3.7+和最新版本的PyTorch(我们使用了PyTorch 1.12.1,没有问题)。如果您还没有Python和PyTorch,请立即安装它们。
Whisper还需要FFmpeg,一个音频处理库。如果您的计算机上尚未安装FFmpeg,请使用以下命令之一进行安装。
【大语言模型】如何在Python中使用开源Whisper ASR
Whisper是最先进的自动语音识别(ASR)系统,是OpenAI的创意。它的目的是将口语转录成书面形式,这一过程有多种用途,包括从转录服务到语音控制助理的所有内容。这个答案将阐明如何使用Whisper ASR系统的开源版本,特别是在Python中。
设置环境
在理解代码之前,确保一个最佳的环境是很重要的。这需要在您的系统上安装Python,以及Whisper Python包。后者可以使用pip安装:
pip install -U openai-whisper
安装Whisper
此外,有必要安装FFMPEG,这是一个命令行实用程序,旨在处理包括音频和视频在内的多媒体文件。根据您系统的操作系统,可以使用相应的软件包管理器进行下载和安装。
【大音频模型】使用Distille Whisper AI轻松进行音频转录
在这篇文章中,我们介绍并分解了Distil Whisper:一个新版本,它为音频转录提供了高达6倍的Whisper模型运行速度。
深度学习技术一直在快速发展,并已成为我们日常生活中的关键参与者,尤其是在这个语音到文本应用的时代。无论是为自动人工智能呼叫系统、SIRI或Alexa等语音助手供电,还是与搜索引擎无缝集成:这一功能都显著增强了用户体验。它的广泛采用使它成为我们生活中不可或缺的一部分。
作为开源人工智能领域的有力竞争者,音频语音识别(ASR)模型Whisper by OpenAI获得了巨大的人气。它的有效性水平与其他生产级模型相当,同时用户可以零成本访问。此外,它还为用户提供了一系列预先训练的模型,以利用人工智能的力量转录和翻译任何音频片段。
在这篇文章中,我们将看看最近发布的Distil Whisper项目。Whisper型号的最新迭代提供了高达6倍的运行速度。在本文中,我们将更深入地研究这个模型版本,是什么使它成为可能,然后以代码演示结束。
花点时间浏览Paperspace提供的关于Whisper的综合文章。此外,请点击演示链接,利用Paperspace的免费GPU服务亲身体验该模型。
【大音频模型】为你的字幕上色:用“日记”和OpenAI的Whisper精简实时转录
将OpenAI的Whisper与diart 相结合,即可获得扬声器识别字幕!
【语音识别】使用Whisper Large V3从音频或视频内容进行疯狂的快速文本转录
介绍
转录服务在各种行业中被用来将音频或视频内容转换为文本。从转录服务中受益的一些行业包括:
医疗保健专业人员
医疗转录在医疗保健行业发挥着至关重要的作用,可以高精度地转录医生的记录并维护医疗记录。
法律/法律行业
律师事务所、律师助理、法庭记者和律师将转录服务用于法律目的,如转录证词和法庭听证会。
企业
企业使用转录服务将董事会会议、会议、采访和其他活动转录成无错误的转录本,以便更好地决策和将来参考。
媒体与大众传播
媒体专业人员,包括记者、视频制作人、电影制作人和文案,使用转录服务为文章、新闻稿和字幕转录采访和其他内容。
数字营销
数字营销人员和内容战略家使用转录师将播客、网络研讨会和其他材料转换为文本,用于博客文章和内容创作。
其他行业
其他受益于转录服务的行业包括市场研究人员、视频和音频播客、自由撰稿人、作家和主讲人。