Google正在開發的音頻轉換技術,距離實踐尚有多遠的路?

Hins Chan • Mar 01, 2021

請給我們一點支持,關注我們的Facebook Fanpage @Squaredigitalhk ,好讓我們撰寫更多優質文章。

音頻搜索(Audio)不只是關於透過口述將語音轉換成搜索關鍵字而已(那只談得上為語音搜尋),這裡所指的還包括音訊網站內容的搜尋。Google公佈了有關正在進行的早期測試的細節,以研究將來進行音頻搜索的可能。

Google正在和公共電視台KQED合作,透過雙方的共同努力,使不同的語音更容易被機器所辨識,達致音頻搜尋普及化。在AI服務提供商KUNGFU.AI贊助下,Google和KQED進行了測試,以找出如何快速而正確地將音頻錄製和處理。Google發布的早期測試結果表示,音頻搜索比很多人想像中更難完成。

音頻搜尋的難度所在,在於儀器收錄語音內容後,必須先將內容轉換為文字,方能進行搜索和分類。雖然我們在使用手提電話時常常會用到語音輸入,但其準確性和速度依然遠低於日常應用的標準,可以想像以相若水平的「語音轉換成文字」的能力,分辨影音檔內容時,其潛在誤差可以有多「恐怖」。KQED的Oslon指出,索引新聞時,音頻轉換成文字的準確性要求尤其高,迄今為止,語音轉換成文字的進步水平尚未符合這些標準。

Google和KQED及KUNGFU.AI透過應用最新的語音轉換文本工具,對一系列新聞聲帶進行測試,結果顯示AI在識別特定專有名詞時,發現了它的局限性。識別專有名詞講求準備識別上下文的理解,而AI並非每次都能夠如此。Oslon一舉例,以CHP作為「California Highway Patrol」的簡寫、以Peninsula代表三藩市到聖荷西一帶,這些代號和簡寫,AI人工智能很難識別這些。

當AI無法理解所收錄到的內容,便會對所講的內容做出猜測,試圖給予最佳方案。 但是,對網絡搜索而言,這種欠精密的解決方案是不可接受的,因為錯誤的內容,可能會令翻譯出來的內容亂七八糟,所有含義都被改變。      

那麼,Google接下來會如何處理?

音頻搜索工作將繼續進行,並計劃在技術開發後使其廣泛使用。


Google新聞與出版合作夥伴負責人David Stoller表示,該項目的工作完成後,將公開共享該技術。


「Google新計劃的核心價值之一是針對難題解決新方法。 完成後,將公開分享有關的技術和相關的實驗例子,從而大大擴展其潛在的影響力。」


KQED的Olson說,當今的機器學習模式,無法從錯誤中自行學習和修正,這是人類可能需要介入的地方。下一步,KQED新聞編輯室將通過識別常見的轉錄錯誤,來幫助改善人工智能的自學模型。


雖然研究語音搜尋之路並非一帆風順,團隊對於其發展還是樂觀的,相信有關技術「最終幫助人們更有效地找到音頻新聞」。                     


如果你覺得我們寫的文章有用,請幫我們分享一下

YouTuber新手該如何制訂內容?如何增加訂閱人數?
By Hins Chan 19 Mar, 2021
一些YouTuber之所以受歡迎,在於其出眾的主持技巧。雖然你也許很想成為那樣的人,但不代表模仿他們便能帶來成功。須知道形象可以營造,但不可以假冒。若希望仿效對象的風格跟你本人根本不搭,只會弄考成拙。這個時代拍攝節目,在乎一個「真」字而已。踏實地經營內容,風格漸漸自然生成。
網絡營銷 餐飲篇 – 經營虛擬外賣品牌的商機與挑戰
By Hins Chan 19 Mar, 2021
這些平台的特色,在於餐廳菜單、資訊格式的高度一致性。餐廳變相可以推銷的空間就只有食物宣傳照、餐單內容和折扣。避免使用網上圖庫買回來的stock photo,以實物照片作宣傳照,給予客人信心;菜式內容亦需清晰,並配合菜式描述以吸引客人嘗鮮。
網絡營銷活動 - 將實體活動轉移至線上,有甚麼好處?
By Hins Chan 18 Mar, 2021
雖然在COVID-19疫情開始前,已經有不少商家嘗試舉行線上活動,不過線下的實體活動對不少企業來說依然具吸引力。可是,到了不得不轉型的今天,我們也許可以先了解一下,活動轉換成線上形式背後牽涉的成本和考慮。
More Posts
Share by: