通过colab来使用whisper将语音转换为文字

最近学习了下如何使用 whisper, 这个玩意有点意思!能在本地电脑上就可以很好的对语音进行识别了,软件里的 large 模型需要10G左右的显存,可是我的显卡只有 8G,也就只能用用 medium 模型,但是我发现 Google 的 Colab 可以免费使用,而且带有 15G 显存的 NVIDIA T4 GPU,这还不白嫖一下啊!学着用了用 google Colab。

可以直接用我写好的 colab 文件

我给使用过程分了几个部分。

1、🏗️安装 Whisper 及其依赖

colab 上很多依赖项已经安装好了,你只需要安装 whisper 就可以了,torch 也可以直接用。如果你想要安装最新的 whisper 你需要 pip install git+https://github.com/openai/whisper.git

2、🧠Whisper 模型载入

单独作为一个部分是,模型在载入过程中只能载入一次,否则会重复载入导致爆显存导致错误。我不知道该如何解决,这里有讨论https://github.com/openai/whisper/discussions/1306,但是我不知道如何解决?

3、🎶(可选)从网络上下载音频文件

你可以选择从网络上下载音频文件,有可以手动上传文件到机器上。

4、🎶上传音频文件及参数设置

手动上传文件到机器上,选择文件名、音译还是翻译、语言等参数,要想识别出来的是简体文字可以指定prompt指定 Whisper 输出为简体中文

5、🚀运行

just run it!

等待!

6、💾 写入文件

将结果写入到文件,可以是txt、json等文件,也可以是srt这种字幕格式文件。

最后

如果你觉得 openai-whisper 速度还是有点慢,你还可以看看下面的内容。

有人已经根据 faster-whisper 写好了脚本直接上 colab 上使用即可。

Tag:AIwhispercolab Published under (CC) BY-NC-SA