2024.04.06 OpenAI、AI新技術「ボイスエンジン」発表
OpenAIは3月31日、テキスト入力と15秒の音声サンプルから自然な音声を合成できる「ボイスエンジン」の概要を発表した。同社は2022年後半に開発したこの技術を、すでにテキスト読み上げAPIやChatGPTの音声アシスタントに応用している。
ただし、音声の不正利用リスクから慎重に対応するとしている。選挙年にあたり、人物の音声を無断で使うことによる悪影響が危惧されるためだ。
OpenAIは政府機関や教育・メディア関係者らと協議し、フィードバックを受けながら技術を磨いていく方針だ。テスト参加者には音声の無断使用を禁止するルールを課している。
さらに、音声の追跡と発信元の特定、著名人の音声利用禁止措置なども講じる。広範な合成音声技術の導入には、本人の許可を得て音声を登録する仕組みが不可欠とも指摘した。
OpenAIは「技術の可能性と課題を示すことで、社会に警鐘を鳴らしたい」と説明する。音声認証の見直しや、音声プライバシー保護のルール作り、AIリテラシー向上の必要性を訴えている。
ChatGPTの音声アシスタントとは?
OpenAIの音声アシスタントは、スマートフォンのマイクから音声を入力するだけでChatGPTと対話できる。旅行先の観光地を写真に撮ってChatGPTに見せれば、写っている場所の魅力を教えてくれたり、家の冷蔵庫の中身を撮影すれば、残り物でできるメニューをChatGPTが提案してくれる。
音声合成にはAI技術を駆使し、プロの声優の発声からリアルな人間の声を作り出しており、音声認識にはオープンソースの高性能エンジン「Whisper」を活用している。
画像入力にも対応し、故障した機器の写真をChatGPTに見せれば修理方法を教えてくれたり、グラフの解析もできる。困ったことがあれば、音声やカメラで直接質問できる新しいインターフェースだ。
【関連リンク】
・Navigating the Challenges and Opportunities of Synthetic Voices(OpenAI)
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices
TEXT:PreBell編集部
PHOTO:iStock