OpenAI推出創新語音技術「聲音引擎」：模仿人聲15秒

OpenAI最近發布了一項名為「聲音引擎」的先進技術，這項技術可以在短短15秒內模仿任何人的聲音，為生成式人工智能領域帶來了新的突破。這項技術能夠讓AI以極高的相似度生成與原聲音幾乎無異的音訊，這意味著它可以在不同場景下「代替」人們發聲。

聲音引擎的運作原理

聲音引擎是一項基於深度學習的技術，它利用短暫的語音樣本來訓練神經網絡，從而生成與原始語音非常相似的聲音。這項技術最初被用於文字轉語音技術和ChatGPT的朗讀功能，提供約15秒的語音樣本後，系統便能以指定的聲音朗讀各種文本。

儘管聲音引擎技術極具潛力，OpenAI仍謹慎評估其風險，以防止濫用。自去年底以來，OpenAI已與一小批合作夥伴進行私下測試，這些合作夥伴包括教育科技公司Age of Learning、AI影片創作平台HeyGen和醫療軟體開發商Dimagi等。目前，僅約10間公司獲准測試這項技術。

為了確保技術的負責任使用，所有獲得許可的合作夥伴都必須遵守OpenAI的政策，包括禁止冒用他人或組織身份，並確保語音樣本的提供者明確了解其聲音的使用目的。此外，他們還需要向聽眾明確說明這些聲音是由AI生成的，而非真人發出。

OpenAI的聲音引擎開創了人工智能語音生成的新篇章，其應用範圍廣泛，從教育、娛樂到醫療等領域都有極大的潛力。然而，隨著技術的發展，也需不斷評估和管理相關的倫理和安全問題，以確保這項創新技術能夠在造福人類的同時，避免潛在的風險和濫用。

Navigating the Challenges and Opportunities of Synthetic Voices (openai.com)
官方文章