OpenAI最近發布了一項名為「聲音引擎」的先進技術,這項技術可以在短短15秒內模仿任何人的聲音,為生成式人工智能領域帶來了新的突破。這項技術能夠讓AI以極高的相似度生成與原聲音幾乎無異的音訊,這意味著它可以在不同場景下「代替」人們發聲。
聲音引擎的運作原理
聲音引擎是一項基於深度學習的技術,它利用短暫的語音樣本來訓練神經網絡,從而生成與原始語音非常相似的聲音。這項技術最初被用於文字轉語音技術和ChatGPT的朗讀功能,提供約15秒的語音樣本後,系統便能以指定的聲音朗讀各種文本。
審慎推進以防濫用
儘管聲音引擎技術極具潛力,OpenAI仍謹慎評估其風險,以防止濫用。自去年底以來,OpenAI已與一小批合作夥伴進行私下測試,這些合作夥伴包括教育科技公司Age of Learning、AI影片創作平台HeyGen和醫療軟體開發商Dimagi等。目前,僅約10間公司獲准測試這項技術。
為了確保技術的負責任使用,所有獲得許可的合作夥伴都必須遵守OpenAI的政策,包括禁止冒用他人或組織身份,並確保語音樣本的提供者明確了解其聲音的使用目的。此外,他們還需要向聽眾明確說明這些聲音是由AI生成的,而非真人發出。
展望未來
OpenAI的聲音引擎開創了人工智能語音生成的新篇章,其應用範圍廣泛,從教育、娛樂到醫療等領域都有極大的潛力。然而,隨著技術的發展,也需不斷評估和管理相關的倫理和安全問題,以確保這項創新技術能夠在造福人類的同時,避免潛在的風險和濫用。
Navigating the Challenges and Opportunities of Synthetic Voices (openai.com)
官方文章