Google正在開發的音頻轉換技術,距離實踐尚有多遠的路?
Hins Chan • March 1, 2021
請給我們一點支持,關注我們的Facebook Fanpage @Squaredigitalhk ,好讓我們撰寫更多優質文章。

音頻搜索(Audio)不只是關於透過口述將語音轉換成搜索關鍵字而已(那只談得上為語音搜尋),這裡所指的還包括音訊網站內容的搜尋。Google公佈了有關正在進行的早期測試的細節,以研究將來進行音頻搜索的可能。
Google正在和公共電視台KQED合作,透過雙方的共同努力,使不同的語音更容易被機器所辨識,達致音頻搜尋普及化。在AI服務提供商KUNGFU.AI贊助下,Google和KQED進行了測試,以找出如何快速而正確地將音頻錄製和處理。Google發布的早期測試結果表示,音頻搜索比很多人想像中更難完成。
音頻搜尋的難度所在,在於儀器收錄語音內容後,必須先將內容轉換為文字,方能進行搜索和分類。雖然我們在使用手提電話時常常會用到語音輸入,但其準確性和速度依然遠低於日常應用的標準,可以想像以相若水平的「語音轉換成文字」的能力,分辨影音檔內容時,其潛在誤差可以有多「恐怖」。KQED的Oslon指出,索引新聞時,音頻轉換成文字的準確性要求尤其高,迄今為止,語音轉換成文字的進步水平尚未符合這些標準。
Google和KQED及KUNGFU.AI透過應用最新的語音轉換文本工具,對一系列新聞聲帶進行測試,結果顯示AI在識別特定專有名詞時,發現了它的局限性。識別專有名詞講求準備識別上下文的理解,而AI並非每次都能夠如此。Oslon一舉例,以CHP作為「California Highway Patrol」的簡寫、以Peninsula代表三藩市到聖荷西一帶,這些代號和簡寫,AI人工智能很難識別這些。
當AI無法理解所收錄到的內容,便會對所講的內容做出猜測,試圖給予最佳方案。 但是,對網絡搜索而言,這種欠精密的解決方案是不可接受的,因為錯誤的內容,可能會令翻譯出來的內容亂七八糟,所有含義都被改變。
那麼,Google接下來會如何處理?
音頻搜索工作將繼續進行,並計劃在技術開發後使其廣泛使用。
Google新聞與出版合作夥伴負責人David Stoller表示,該項目的工作完成後,將公開共享該技術。
「Google新計劃的核心價值之一是針對難題解決新方法。 完成後,將公開分享有關的技術和相關的實驗例子,從而大大擴展其潛在的影響力。」
KQED的Olson說,當今的機器學習模式,無法從錯誤中自行學習和修正,這是人類可能需要介入的地方。下一步,KQED新聞編輯室將通過識別常見的轉錄錯誤,來幫助改善人工智能的自學模型。
雖然研究語音搜尋之路並非一帆風順,團隊對於其發展還是樂觀的,相信有關技術「最終幫助人們更有效地找到音頻新聞」。