如何使用人工智慧免費轉錄文本 如何使用人工智慧免費轉錄文本

如何使用人工智慧免費轉錄文本

如何使用人工智慧免費轉錄文本

早在人工智慧被用於生成影片和編寫程式之前,它就已被用於理解口語並據此採取行動。正是人工智慧讓你能夠與 Alexa、Siri 和 Google Assistant 對話,並讓這些應用程式為你效力。

這些演算法同樣可以幫助您從包含語音的音訊檔案中創建數位文本,無論這些檔案是會議錄音、訪談錄音、講座錄音,還是您自己錄製的語音筆記。文字可以為您提供談話內容的書面記錄,並且可以輕鬆搜尋。

像 Rev 和 Happy Scribe 這樣的大牌轉錄服務只提供有限的免費轉錄服務,但你可以藉助 Whisper 完全免費完成轉錄工作。 Whisper 是由 OpenAI(ChatGPT 的開發者)開發的語音轉文字引擎,而且使用次數沒有任何限制。

您可以選擇使用 Hugging Face 提供的網頁版應用程序,雖然方便,但在高峰時段可能會比較擁擠。您也可以選擇將軟體安裝在 Windows 系統本機——這樣轉錄速度更快,但您需要一台配置良好的電腦才能滿足 AI 的處理需求。

網路上的耳語

耳語介面截圖
網頁版 Whisper 快速易用。截圖:Whisper

前往 Hugging Face 上的 Whisper 功能,即可在瀏覽器中免費獲得音訊轉錄服務-無需註冊帳號。您可以選擇從電腦上傳音訊文件,或者如果您已連接麥克風,也可以直接在應用程式中錄音。請注意,您的音訊可能會用於進一步訓練未來的 AI 模型——與通常情況一樣,OpenAI 和 Hugging Face 的隱私權政策對此並不明確。

上傳和處理音訊檔案:

  • 開啟音訊檔案標籤。
  • 選擇“點擊上傳”
  • 選擇一個音訊檔案。
  • 勾選“轉錄”方塊。
  • 點擊提交

稍等片刻(或更久),螢幕右側將顯示文字輸出。處理時間取決於音訊檔案的長度以及 Hugging Face 伺服器的繁忙程度。由於這是一項為所有人提供的免費服務,因此非常受歡迎,您可能需要等待一段時間才能處理完文件。

在介面中,你會找到一些實用工具。例如,點擊音頻播放條上方的小筆圖標,就可以修剪音頻片段的開頭和結尾——如果你需要剪掉靜音部分或不重要的音頻片段,這個功能就非常方便。

您也可以切換到「麥克風」選項卡,直接在 Whisper 介面錄製音訊;或切換到「YouTube」選項卡,以取得任何影片的文字稿。只需貼上影片 URL 即可。值得注意的是,YouTube 會自動為部分影片添加文字稿,您可以在評論區找到它們。

Windows 版 Whisper

程式碼截圖
Whisper 使用簡潔的命令列介面。截圖:Whisper

如果您在使用 Whisper Web 應用程式時遇到很多延遲,或者您只是想在本地進行更私密的轉錄處理,您可以在 Windows 電腦上設定 AI 模型。您需要安裝一張支援 CUDA 的顯示卡(點擊此處查看清單),並且至少配備 4GB 顯示記憶體來處理資料——如果您安裝的是較新的 Nvidia 顯示卡,應該就符合要求。

這個過程比較複雜,而且使用者介面也比較簡陋,所以並不適合所有人。不過,它確實具備我們之前提到的那些優點,而且你不用排隊等待文件處理。如果你喜歡擺弄程式碼和程序,這也不失為一個很棒的小專案。

假設你的電腦配置符合要求,你需要安裝一些軟體:用於程式設計的 Python(安裝過程中請確保勾選「將 python.exe 加入到 PATH 環境變數中」)、用於機器學習的 PyTorch、用於管理軟體包的 Chocolatey 以及用於音訊處理的 FFmpeg。如果你需要,可以在相關網站上找到它們的安裝說明。

接下來就可以安裝 Whisper 了:在「開始」功能表中搜尋「cmd」並開啟命令提示符,然後輸入「pip install -U openai-whisper」並按下回車鍵。安裝完成後,就可以像這樣轉錄檔案了:

  • 在檔案總管中開啟包含音訊檔案的資料夾。
  • 點擊頂部的網址列,輸入“cmd”,然後按Enter 鍵
  • 輸入“whisper”,然後輸入一個空格,再輸入你的音訊檔案名稱。
  • 再次按下回車鍵,處理過程就開始了。

文字會顯示在螢幕上,並以一系列文字檔案的形式儲存在與音訊檔案相同的資料夾中。如果需要同時轉換多個文件,只需在「whisper」命令後列出所有文件,並用空格分隔即可。

即使您不熟悉 Python 或命令列,也應該能輕鬆上手。如果您需要協助,網路上有很多指南可以參考。這篇教學是目前最好的教學之一,它會一步一步地引導您完成每個步驟,並解釋一些可用的進階功能(例如切換到不同的 AI 模型)。