這應該是使用large-v2 免費版本中速度最快的了
據說是原本whisper的60-70x速度
比較麻煩的是環境要自己架設
另外問了一下gpt 給出的免費使用都是限制版本
下面提供安裝步驟,順便說下顯卡支援tensor cores在裝(2060或以上)
大概步驟:
(1)安裝cuda toolkit
(2)安裝anaconda
(非必要)git 只是方便拉項目,也可直接到github download ZIP
(3)anaconda prompt中創建 python=3.10 的環境
(5)anaconda prompt中安裝whisperx
以下可跟著步驟操作:
2.選自訂->主要是CUDA有勾->安裝位置要記下
大概會等個10分鐘
3.安裝好後,進到剛剛的安裝位置,WIN+R 打上sysdm.cpl
點進階分頁->點環境變數->下面系統邊變數中的path編輯
新增剛剛的安裝位置加個\bin C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\bin
5-2. (非必要)安裝FFMPEG,我自己是都用mkvtoolnix把AAC音軌分開成mka
直接用mka的音檔轉錄,有裝FFMPEG的話就是直接轉錄影片
6.都安裝好後,win+r 開啟cmd ,拉項目(我自己是都拉在下載下面)
cd C:\Users\page1(你的使用者名稱)\Downloads
git clone https://github.com/m-bain/whisperX
7.開啟Anaconda Prompt中輸入
創建一個環境conda create --name whisperx python=3.10
下面這行複製起來 ,輸入在anaconda prompt中
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
9.等他跑完,安裝whipserx ,anaconda prompt 中輸入pip install whisperx
如果都順利的話應該沒依賴項衝突,我自己torch版本是這樣
10.把要轉錄的音軌放在下面目錄
C:\Users\page1(你的使用者名稱)\Downloads\whisperx
anaconda prompt中輸入指令
python -m whisperx test.mka --model large-v2 --language zh --no_align --chunk_size 4 -f srt --vad_method silero --verbose True
test.mka是要轉錄的音軌檔名
--model large-v2 使用large-v2 60-70x速度,issue有人說可以用v3 turbo 但我沒測試 --language zh ,zh是中文,關於語言簡寫可看這,直接網頁轉中文就知道是甚麼語言 --no_align 中文字沒加會有空白
--chunk_size 5 我自己設5,沒加的話預設會有一句長度30秒的字幕...
-f srt 輸出成srt的字幕,如果沒加會輸出全部6種格式的字幕..
--verbose True 開啟報錯訊息
--batch_size 預設是8 ,顯卡比較好的可以自己往上增加,數值越高批次處理數量越快
--computer_type float16 預設就是float16,之前cuda沒更新只能用float32跑,float16會使用tensor core顯卡加速,畢竟快才是whisperx好用地方
--output_dir 預設輸出是whisperx同資料夾
語言模型現在正處在快速跌代的時間點
任何模型要付費前都可以再等等
因為可能不用一年會出更便宜更快的