OpenAI Whisper 使用体验:改变游戏规则的优雅语音转写工具

2024-07-17 www.dnxtw.com

速记员这一职业相信大家都不陌生,他们能在各种场所高效率快速地将演讲的内容转化成会议纪要。如果将速记员变为软件,其主要功能便是语音识别技术 转写。这种要求适用场景普遍,在线视频播放 AI 外挂字幕、线上视频会议 / 网络课程的快速记忆、生食日漫 / 影片 / 歌曲字幕制作和转义、电话录音等,都要用到。

快速记忆的精髓在于速率,快最关键,但很多场景中,不论是人力资源或是软件,都不能达到超快的转写速度与准确度,而满足技术专业客户高效率转写要求的一种手段,通常需要付费获得。如某品牌的语音转写想象包订阅费用是 79 元持续包月,599 元 / 年;另一款就需要注册公司客户,然后跟在线客服收费标准,听说专业版成本是每个客户 199 元 / 年,专业版花费乃是每个客户 299 元 / 年。

对于企业 / 技术专业消费者来说,付钱定阅软件一定最好的选择,他们的速度快、不用高性能硬件成本(GPU)、准确率高、适用人力精校,肯掏钱乃至可得到一对一的专业客服适用,那如果偶尔应用性价比高就并不是很高了。

此外,这种定阅软件的 AI 服务项目,往往需要用户将最原始的视频和影音文件上传至服务器和全过程连接网络,并且通过生产商的专业设备云端运作,你的视频或影音文件其中包含私人信息 / 商业等具体内容,明显也并不合适。

有关 Whisper

图片 5

那有没有一款彻底免费开源,不用连接网络,过分依赖当地硬件配置算率去跑语音识别技术和转写,准确度还不低的语音转写软件呢?也许喜爱关心 AI 领域内的好朋友早已有答案的,它就是来自的 OpenAI 精英团队所开发的 Whisper。从官网详细介绍文章内容日期上不会太难见到,Whisper 早就在 2022 年 9 月就已经推出,但时迄今日它依然是最实用的完全免费语音转写专用工具。

认为它最好是用缘故有三点,一是它语言适用普遍(99 种),二是转写速率极快,三是鉴别精确性非常高,且只需一张高性能独立显卡就可办得到,以下几点我都会在后边的体验中来给大家深入分析。

先给大家简单科普一下 Whisper,它是一个跨模态语音识别技术模型,根据 Transformer 模块所打造,已通过 68 万个多小时语音数据练习,适用 99 多种语言(包含汉语),在具备语音识别技术能力的同时,还提供了视频语音活力检验(VAD),语音识别技术,说话者日志 (Speaker Diarization,则在多的人会话场景中检验不一样角色的讲话时间范围),在线翻译(翻译为英文),视频语音两端对齐的能力,其英语识别准确率非常强悍。

图片 2

而上边提到的 Transformer 模块,正好 NVIDIA 在 RTX 40 系列产品独立显卡上引进了一个对于 AI 计算出来的新硬件特点,从总体上 RTX 40 系独立显卡增加了对 FP8 低精密度浮点型的大力支持,根据 Transformer 模块,对比 AI 练习常见的 FP16 半精密度浮点型而言,图像分辨率非常,在同样加快平台中最高值性能明显超过后面一种,但 FP8 更低的个数有益于减少室内空间占有和提高互联网利用率,容许模型拥有更多计算复杂度,进而算更快。

图片 3

有趣的是 OpenAI 目前为止发布大模型,包含大伙儿耳熟能详的 GPT,Sora.,Dell 及其今日所提到的 Whisper,都是围绕 Transformer 模型所开发设计,这种模型的计算复杂度极大,并通过了 Transformer 模型所具有的 Scability(扩展性)特点,可以不断累加模型参数值和神经元网络叠加层数,获得更细致以及强大的 AI 水平。

除此之外,OpenAI 精英团队也注意到了 Transformer 模型的自注意力机制,使其能够了解编码序列中任意两个词语元间的联系并忽视间距,提升导出质量以及衔接性。自专注力还可以扩展为双头专注力,容许模型将数据和信息激光切割细化为引流矩阵(头),随后对每一个引流矩阵(头)依次进行自专注力测算,最终合拼导出。

在这两种体系下,Transformer 模型捕获的信息类型更加全面,学习的能力以及语言表达能力也更加突出。也正是因为 OpenAI 将 Transformer 模型作为产品成长平台的思路,及其 RTX 40 系独立显卡对 FP8 Transformer 引擎的适用,才使 RTX 40 独立显卡变成普通大众目前体验 Whisper 最理想的硬件配置。

图片 7

这就不得不提此次体验需要用到的两个重要硬件配置,第一个是 i9-14900K Cpu,做为最新一代消费级销售市场旗舰定位 CPU,其采用了 24 关键 32 线程的关键规格型号,最大睿不断率可达 6GHz,不仅自身性能强大,也不影响独立显卡性能发挥。

图片 5

主人公则是这款影驰显卡 GeForce RTX 4070 Ti SUPER 星曜 OC 独立显卡,它基于 AD103 关键所打造,包括 8448 个 CUDA 关键,显卡位宽提高到了 256bit,并且拥有 16GB GDDR6X 大显卡内存。

图片 6

它所搭载的第四代 Tensor Cores 关键致力于 AI 为之,新增加 FP8 模块适用,赋予其达到 1.32 petaflops 的 Tensor 解决性能,可以实现混合精度测算,动态管理算率,针对万亿级主要参数生成式 AI 模型的练习效率提高 4 倍,性能可以达到 FP16 的 6 倍,逻辑推理性能提高 30 倍,特别适合用来体验 Whisper 的性能。

图片 6

而外观造型,影驰显卡 GeForce RTX 4070 Ti SUPER 星曜 OC 独立显卡也是艺术感打满,纯白色卡身盔甲,内置亚克力板“紫水晶”机壳,三风机适用 RGB 光环特效,还附赠独家定制显卡支架,长相十分出色,用来组乳白色一线海景房真是是绝配。

图片 8

那毕竟是拿它来跑 AI,显卡驱动程序也要选 Studio 推动,不然跑出来的速率很有可能不是太好。现阶段 NVIDIA 官网提供最新发布的 Studio 驱动版本为 555.99。

布署 Whisper

最先 Whisper 是一个模型并非软件,它基于 Python 计算机语言开发设计,快速下载 GitHub 上的原版布署的话就需要根据命令行工具来运行。还好如今已经有很多适用 Whisper 的 GUI 软件,在其中简单易用的代表就是 Buzz 和 Whisper Desktop 了。

图片 15

图片 2

挑选这几款 GUI 软件的主要原因也很简单,第一是2款软件全部免费,容积占有特别小,全新 v0.8.4 版本 Buzz 安装文件只有 197MB,彻底安装后的占空间约 1.21GB,而 Whisper Desktop 乃至只需 324kb 大小的小单文件和一个环境变量就可运作。

图片 13

Release v0.8.4 · chidiwilliams/buzz · GitHub

图片 14

第二是2款软件的页面比较简单,入门简单方便。首先来看 Buzz,它主要通过 CPU 来跑 Whisper,因而兼容模式比较强,而且支持 Windows、Linux 和 MacOS 系统服务平台,很全面。Windows 和 MacOS 客户都能通过 GitHub 进行下载,Mac App Store 中的版本号开价 9.99 美金,不是专业客户一点不强烈推荐。

图片 10

Whisper Release - a openai Collection (huggingface.co)

在装好 Buzz 后,大家要下 Whisper 的模型文档,建议大家根据 Huggingface 镜像站进行下载,上面还有 Whisper 模型的合辑页面,并且会保持升级。

Whisper 官方网带来了 Tiny、Base、Small、Medium 和 Large 五种不同大小的模型,占用容积先后提升,模型越多解决声频时间也越久,精确性越大。还是建议大家一步到位将五种大小的小模型都直接下载,亲身试一下实际效果。

图片 12

这里需要注意的是,正版模型的文件名后缀是.pt,假如你下载的软件模型文件夹名称和后缀名不一样,很有可能是他人变换或是调整之后的模型。下载完了后,还要把所有的模型文档都统一存放“C:\Users\ 电脑登录名 \.cache\whisper”文件名称下,随后布署步骤就搞定,是否比较简单。

图片 16

开启 Buzz 后,它的页面是这样子的,十分简单直接,点一下话筒按键可能收集系统响声去分析在线播放的音频视频里的视频语音,但是这种方法辨识精密度非常低,建议大家还是点一下“ ”号按键手动式特定当地音、视频文件格式开展计算更为妥当。

图片 19

点一下“ ”号创建文件夹后,会弹出之上菜单栏对话框,要先后挑选模型种类、模型尺寸、处理方法及其鉴别语言表达,之后在底部导出来列表中挑选字幕文件种类。

图片 20

这儿在这里给大家做了一些汉语注解,模型种类立即选第一个 Whisper 就行,容积层面本质上转写英语音频挑选 Small 模型就能获得很好的效果,汉语声频就需要 Medium 或 large 模型,解决类型选择转写,由于转义是把鉴别结论翻译成英语,而且只能翻译成英语,局限比较大。

图片 5

照理说对排版设计要求比较高一定要点选文本时间格式选择项,不然鉴别结论便会挤在一起,不过目前 Buzz 的句子时间格式选择项有 BUG,点选后不但鉴别速度比较慢许多,鉴别结论每排几乎只有一个单词或一个字,就像上图那样,还好不点选它还会对每句开展按段,最终导出来文档类型大伙儿按需选择。

图片 21

所有选定以后点击右下角的“Run”按钮即可运作,鉴别环节中 Buzz 会提供现阶段辨识进展百分数,直至进行转写。

图片 23

待鉴别进展变为 Completed(已经完成)的状态下,选定列表中的文档,点一下“ ”边上的双箭头标志,会弹出鉴别过程的预览窗口,里边记载了每句的时间也开始和转写结论,再度点击右下角的保存按钮然后选择导出来文档类型即可下载到电脑。

图片 29

图片 31

Release Version 1.12 · Const-me/Whisper · GitHub

ggerganov/whisper.cpp at main (huggingface.co)

再看看 Whisper Desktop,关键在于免费下载,Whisper Desktop 软件和模型下载详细地址我贴在这儿,其实也是五种尺寸模型,只不过是文件夹名称作为前缀和文件属性后缀名不一样。

图形用户界面, 文本, 应用程序描述已自动生成

然后就是 Whisper Desktop 的页面及使用。打开我们首先需要构建模型,Whisper Desktop 不用指定实体模型储放文件目录,手动式构建模型详细地址就可以了。

大家要注意,Whisper Desktop 的模型文件并非.pt 后缀名的,反而是.bin 后缀名的,文件夹名称中也就多了 ggml-model 字样,显而易见这也是通过转换后的模型文件。

事实上,该软件便是 Whisper 的 ggml 版本号,ggml 是一个用以人工智能的偏微分库,所采用的模型文件是 bin 格式二进制文件,鉴别实际效果相当于 Whisper。

图片 27

随后实体模型生成方式这儿挑选 GPU。高端基本参数中,有独立显卡的挑选独立显卡,并没有独立显卡的就选择核心显卡,我这里也直接购买影驰显卡的 GeForce RTX 4070 Ti SUPER 星曜 OC 独立显卡就可以了。

图片 28

所有选定然后点击 OK 进到二级页面,这儿的操作步骤和 Buzz 比较类似,我给大家都标明汉语注解,一看就会。选定然后点击右下角的 Transcribe(转写)按钮即可。

对比实验

测试环节我们将要开展四组不一样语言、说话速度、种类音调源代码较为,比照内容是鉴别 转写速度与识别准确率,对比目标则以 Buzz 软件 i9-14900K 的 CPU 解决势力以及以 Whisper Desktop 影驰显卡 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡的 GPU 势力。

图片 45

第一次先看中文鉴别实际效果,我们在网上安装了一段锤子科技当初在燕窝举行的新品发布会上,罗永浩对 TNT 软件进行演试的视频短片,随后转换成除掉观众台音乐的 5 分 30 秒 MP3 影音文件,这一段中文语音中掺杂了汉语、英语和数字,比较考验 Whisper 的综合实力。

图片 33

图片 34

在相同挑选 large 实体模型的情形下,Buzz 选用 i9-14900K Cpu3D渲染,最后转写速度达 3 分 08 秒上下,Whisper Desktop 选用影驰显卡 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡渲染,转写速度达 26 秒,Whisper Desktop 只用了 Buzz 软件 1/6 不到的时间便进行转写,不难看出内置 Transformer 引擎的独立显卡针对 Wisper 的效率提高是非常大的。

图片 35

转写排版设计上 Buzz 和 Whisper Desktop 在没有挑选时间格式文本类型的 TXT 文件类型下,旗鼓相当,基本上都可以做到依照一句详细视频语音开展自动换行标点。

图片 39

图片 36

但是,在鉴别结论的字数上,二者居然并不一样。Buzz 的转写篇幅为 910 字,而 Whisper Desktop 的转写篇幅为 933 字。鉴别精确性上,Buzz 鉴别错误 27 个词 / 词,准确度为 97%,Whisper Desktop 识别错误 9 个词 / 词,准确度 99%。不想被随机性危害,大家持续检测三次,基本上都是这一比例。

图片 40

两者在错误类型上,即便我只是截识别错误的这句话,不结合前后文,我们都可以一眼看出错在哪了,基本上就是中英混说 / 纯中文发音识别错误。

图片 41

图片 43

此外,Buzz 导出一些英文也会识别错误,而 Whisper Desktop 的英文翻译和数是完全没有不正确的。那为什么 Whisper Desktop 辨识结论篇幅要多一些,通常是视频语音上存在反复说相同词语时,Buzz 有几率只转写一次,并且 Whisper Desktop 有的地方还会继续搬弄是非,例如末尾莫名其妙多出来一句谢谢观赏,还蛮暖心的哈。

图片 44

Attitude - Britneylee 小暖 - 5sing 歌曲 (kugou.com)

第二轮比照我选择了一段 BGM 缓解,形式为诵读的英文短篇,总体诵读速率比较适度,口齿清晰,声频时长为 1 分 31 秒 MP3 声频,实体模型则选用了 medium。

图片 49

图片 48

此次的转写速率差别也非常明显,Buzz 转写用时 26 秒,而 Whisper Desktop 仅用时 3.8 秒便进行转写。

图片 52

在转写排版设计上,因为 Buzz 挑选时间格式文字有 Bug,因此 Whisper Desktop 略胜一筹。但是在识别准确率上二者彻底平局,因为是 100%,终究上文也提到了 Whisper 的英文翻译识别能力非常强悍。

图片 53

MASAYUME CHASING - BoA (小夏) - QQ 歌曲

自然,大伙儿非常关心的日文大家也进行了测试,此次我选择了一首日本歌星 BoA 唱的歌曲《妖精的尾巴》TV 动漫 OP 主题歌《MASAYUME-CHASING》,这首歌曲 BGM 较为燃,说话速度相对性前面的英文朗读也比较快许多,还有一些反复叠声词,音乐时长为 3 分 40 秒,测试模型挑选 Large。

图片 55

图片 54

转写速度上,Buzz 耗时 1 分 44 秒进行,Whisper Desktop 耗时 17 秒进行,影驰显卡 GeForce RTX 4070 Ti SUPER 星曜 OC 独立显卡再度完爆。

图片 56

转写排版设计和前面的英文类似,仅仅二者在一些句子的标点长短上各有不同。而精确性上,二者的许多不正确都一样,识别准确率全是 96%。可是 Buzz 有的地方错成了平假名,而 Whisper Desktop 同样部位则错成了英语,例如歌曲歌词原话为“燃やせ胸の火を”,汉语大概意思是“心中之魂熊熊烈火”。Buzz 的转写结果显示“燃やせ胸のヒール”,汉语成了“点燃胸口的高跟鞋”,Whisper Desktop 的转写结果显示“燃やす胸の hero”,汉语成了“点燃胸前英雄人物”。错构造基本上都是这类,懂日语的朋友可以评论留言解释一下。

最终我选择了一首英文说唱类别的短视频,这视频比较特别,首先它虽是创作者二创写词,但响声选了 AI 配声,有很重“水帘洞话音”,次之说话速度迅速,每句中都有大量的英语单词,咬字也算不上比较清楚,归属于略微“鬼蓄向”作品,我们依然把它转为 MP3 文件格式,选用 medium 实体模型,看一下这类声频 Whisper 搞得定吗?

图片 2

图片 3

但是意想不到的是,Whisper Desktop 仅用时 2.6 秒就完成转写,也太快!Buzz 则耗费了 1 分 03 秒进行。

图片 4

但是此次转写得到的结果确实令人哭笑不得,Buzz 好像成功识别出整曲歌词,而 Whisper Desktop 立即嗝屁,一个字也没听出来,这下高下立见了。

别着急,细看 Buzz 的文本文档又发觉,它这个创意文案好多地方像“想象”出的,比照原版视频只有讲错对一半一半,重要很多话想说中不对好多个词意思就基本不一致了。显而易见,当面对 AI 配声 话音 BGM 的画面,Whisper 好像却无能为力,因此大家就不要指望用它转写口语体非常重、家乡话及其鬼畜视频了。

图片 9

通过上边三组检测的比较,我们可以得出以下几个方面结果:

对比 CPU,RTX 40 系显卡的 AI 特性对 Whisper 这种根据 Transformer 模块所打造的跨模态大模型也是有较大优势的。

影驰显卡 GeForce RTX 4070 Ti SUPER 星曜 OC 独立显卡即便在 Large 较大容积模型下,还能将 5 分钟之内的影音文件转写时间压缩到 60 秒以内,16GB 大显卡内存能够轻松hold Large 模型的负荷。

Whisper 针对中文识别精密度现阶段还算不上非常出色,难度系数对比日语、英文都要大。而日文、亚太地区语种的识别准确度都是显然会差于英语。可是却不正确总数相对性全部文字的比重来说,Whisper 依然做到了极致 90% 之上准确性,对比收费标准软件识别速率也许不一定会占优势,但胜在完全免费、线下和门槛较低,整体来看在完全免费转写工具中才华横溢。

话音非常重或者利用变音的 AI 配声、变音鬼蓄向短视频,不适合使用 Whisper 开展转写。

此外还需要特别提示 2 点,一是拿 i9-14900K 进行比较,关键目的是给到大家识别速率里的参照,并不是为说明 RTX 40 显卡的 AI 特性一定比 intel CPU 强;二是大家使用 Whisper 开展识别转写前,建议还是根据三方软件,将音频视频里的人声伴奏和 BGM 进行分离,识别效果更好。

汇总

在 Whisper 相互配合2款 GUI 软件的体验过程中,除开布署环节牵涉到很多外网地址模型网络资源的下载有一些不便,交互体验没有什么问题,非常人性化。

对有非商用,非大批视频语音识别 转写适用场景用户来说,Whisper 充足满足他们的日常要求,但是像影驰显卡 GeForce RTX 4070 Ti SUPER 星曜 OC 独立显卡所具有的 Tensor Core、CUDA 及其 16GB 大显卡内存,可以轻松应对 Lager 模型给出的 AI 计算负荷工作压力,带给用户明显效率提高。

也许目前很多 AI 行业离我们的日常生活还很远,但不可否认的是的是,灵活运用 AI 一定能让生活变得更加美好。

最终,因为原文中一部分连接对网络空间要求很高,这儿就来给大家另附本次检测需要用到的模型网络资源好啦:

测试资源,提取码 l2fz

广告宣传申明:文章正文所含的对外开放跳转页面(包括不限于网页链接、二维码、动态口令等方式),用以传递更多信息,节约优选时长,结论仅作参考,电脑系统网全部文章内容均包括本声明。

相关阅读