Video thumbnail for Gemini 2.5 Pro for Audio Transcription

Gemini 2.5 Pro 用於音頻轉錄:超強功能、技巧與實際操作

Summary

Language:

Quick Abstract

想知道如何運用Gemini模型,特別是新的Gemini 2.5處理音訊嗎?這影片將帶你了解。

  • 快速重點

    • Gemini 2.5 Pro可生成64,000個token,能處理約2小時音訊轉錄。

    • 支援多種音訊格式,如web files、MP3、AAC等。

    • 能進行音訊分離,辨識不同講者。

    • 可透過調整提示,獲取音訊摘要、筆記等。

    • 可處理超過2小時的音訊,透過分段轉錄再合併。

利用 Gemini 2.5 進行音頻處理

Gemini 2.5 在音頻處理上的革新

在本影片中,我想談談如何使用 Gemini 模型,特別是新的 Gemini 2.5 來處理音頻相關的工作,像是取得音頻的文字轉錄、進行說話者分離,以及在音頻上進行問答等。

Google 或 DeepMind 一開始並未大力宣傳 Gemini 2.5 在音頻處理方面的功能。從最初的博客文章中可以看出,他們幾乎沒有提及音頻,只是提到這是一個高品質的多模態模型。

Gemini 模型從一開始就是多模態的,去年我們就能輕鬆將音頻輸入其中。而 Gemini 2.5 Pro 模型的重大突破在於它能生成 64,000 個標記,相比之下,早期的 Gemini 模型只能生成約 8,000 個標記。

這意味著什麼以及為什麼這很重要呢?大約 15 分鐘的音頻轉錄大約需要 8,000 個標記。雖然 Gemini 1.5 Pro 模型可以完成一些音頻處理任務,且 2.5 版本肯定更好,但之前的挑戰不在於分析的品質,而是無法生成完整轉錄所需的標記數量。現在,有了 64,000 個標記,我們可以生成大約 2 小時的音頻轉錄。

Gemini 2.5 Pro 的相關資訊

過去一周,Google 宣布了 Gemini 2.5 Pro 的價格,從不同規模來看,價格相當合理。在看到具有更長生成能力的 Gemini 2.5 Flash 之前,我一直在使用這個模型進行音頻轉錄和分析。

音頻類型與技術細節

從官方文件中可以看到,我們可以使用多種不同的音頻類型,我主要使用網頁文件和 MP3,也可以使用 AAC 格式甚至 flack 文件等。

技術細節方面,在 Gemini 模型中,每秒音頻對應 32 個標記,即每分鐘 1920 個標記,每小時音頻約 115,000 個標記。這在考慮不同價格時需要考慮,如果超過 200,000 個標記,可能需要建立一個管道來拆分音頻,以避免超過 200,000 個標記的限制。

音頻的下採樣與上傳

Google 會將音頻下採樣到 16k,個人認為這不是大問題,但有些人可能會在意它會將立體聲源合併為單聲道。

要使用 Gemini 2.5 進行音頻處理,需要上傳音頻文件。有兩種方法,一種是直接將音頻放入提示中,但 Gemini 會限制每次呼叫的最大大小為 20MB;另一種是使用上傳 API,可以上傳單個 2GB 的文件,還可以上傳多個文件並在一次呼叫中使用。

音頻轉錄與說話者分離

上傳音頻文件後,就可以將其作為內容的一部分傳遞給模型以生成新內容。模型在生成時間戳方面表現出色。如果要處理超過 2 小時的音頻,可以上傳文件並告訴模型從哪個時間點開始和結束轉錄。

在代碼部分,我修改了 Gemini 團隊的一些示例以滿足我的需求。一開始是獲取金鑰並設置客戶端,然後是原始提示,你可以根據自己的需求調整提示。

模型在進行音頻轉錄時,能大致判斷說話者。在播客中,當有兩個人或一群人時,他們往往會互相稱呼名字,模型就能據此判斷說話者。傳統的說話者分離是通過提取每個說話者的嵌入特徵,然後進行聚類或分割等操作,而 Gemini 模型似乎能直接做到這一點。

如果說話者沒有被提及,可以在提示中提供說話者名單,模型會嘗試判斷。

音頻文件的獲取與處理

找到可以下載 MP3 的播客網站也是一個挑戰,我使用了 Podbay FM,只需選擇下載文件即可。

將 MP3 上傳到 Google Collab 後,運行代碼可以看到文件被成功上傳,並獲得文件名、創建時間等信息,最重要的是保留上傳文件的引用,以便傳遞給實際的呼叫。

進行實際呼叫非常簡單,只需將上傳的文件和提示傳遞給 generate content 函數,選擇 Gemini 2.5 Pro 模型即可獲得轉錄結果。

原始轉錄結果每句話都有一個時間戳,可能不太實用。我讓 Gemini 2.5 生成了一些代碼,對轉錄結果進行處理,使其在同一說話者時每 30 秒給一個時間戳,說話者變更時給新的時間戳。

音頻的總結與應用

對於播客,獲得轉錄結果後,我通常會對其進行提示以生成總結。例如,要求模型以項目符號的形式製作一組筆記,每個想法後面加上時間戳,並用標題和子標題組織想法。

這樣可以得到一個包含各種想法和時間戳的總結,方便快速了解播客內容。如果需要查看某個特定內容,可以跳轉到相應的時間戳。

處理超過 2 小時的音頻

如果播客超過 2 小時,可以在提示中指定開始轉錄的時間點,然後使用模糊匹配將多個轉錄段拼接起來。通常我會讓前後兩段有幾分鐘的重疊,以便模型處理。

總結與展望

如果有音頻轉錄需求,使用原始轉錄模型仍然有用,但 Gemini 2.5 Pro 在說話者分離方面表現更出色。目前在 AI 工作室可以免費進行這樣的呼叫。

未來,隨著 TTS 系統能夠複製人們的聲音,我們可以利用這些技術創造出更多有趣的應用,例如將音頻內容轉化為更易於消費的形式。

在未來的影片中,我還將介紹如何使用這個模型處理 YouTube 視頻。如果覺得本影片有用,請點贊並訂閱,下次影片再見。

Was this summary helpful?

Quick Actions

Watch on YouTube

Related Summaries

No related summaries found.

Stay Updated

Get the latest summaries delivered to your inbox weekly.