OpenAI、AI新技術「ボイスエンジン」発表

2024/04/06

OpenAIは3月31日、テキスト入力と15秒の音声サンプルから自然な音声を合成できる「ボイスエンジン」の概要を発表した。同社は2022年後半に開発したこの技術を、すでにテキスト読み上げAPIやChatGPTの音声アシスタントに応用している。

ただし、音声の不正利用リスクから慎重に対応するとしている。選挙年にあたり、人物の音声を無断で使うことによる悪影響が危惧されるためだ。

OpenAIは政府機関や教育・メディア関係者らと協議し、フィードバックを受けながら技術を磨いていく方針だ。テスト参加者には音声の無断使用を禁止するルールを課している。

さらに、音声の追跡と発信元の特定、著名人の音声利用禁止措置なども講じる。広範な合成音声技術の導入には、本人の許可を得て音声を登録する仕組みが不可欠とも指摘した。

OpenAIは「技術の可能性と課題を示すことで、社会に警鐘を鳴らしたい」と説明する。音声認証の見直しや、音声プライバシー保護のルール作り、AIリテラシー向上の必要性を訴えている。

ChatGPTの音声アシスタントとは？

OpenAIの音声アシスタントは、スマートフォンのマイクから音声を入力するだけでChatGPTと対話できる。旅行先の観光地を写真に撮ってChatGPTに見せれば、写っている場所の魅力を教えてくれたり、家の冷蔵庫の中身を撮影すれば、残り物でできるメニューをChatGPTが提案してくれる。

音声合成にはAI技術を駆使し、プロの声優の発声からリアルな人間の声を作り出しており、音声認識にはオープンソースの高性能エンジン「Whisper」を活用している。

画像入力にも対応し、故障した機器の写真をChatGPTに見せれば修理方法を教えてくれたり、グラフの解析もできる。困ったことがあれば、音声やカメラで直接質問できる新しいインターフェースだ。

【関連リンク】

・Navigating the Challenges and Opportunities of Synthetic Voices(OpenAI)
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

TEXT：PreBell編集部
PHOTO：iStock

tag: #AI

#ChatGPT

#テクノロジー

この記事を気にいったらいいね！しよう

PreBellの最新の話題をお届けします。

Follow @prebell_jp