Whisper（音声認識）とは？OpneAIの文字起こしツールの使い方と料金について解説

2024/01/23

近年、AI技術の急速な進歩により、文字起こしサービスの新たな可能性が広がっています。

その中心にあるのが、OpenAIが開発した音声認識モデル「Whisper」です。

本記事では、Whisperの基本的な特徴と料金、具体的な使い方、そしてどのようにビジネスで活用できるのかについて詳しく解説します。

最新の音声認識技術について詳しく知り、その活用方法を理解するために、ぜひ最後までお読みください。

目次: Whisperとは

そもそも音声認識AIとは

Whisperの5つのモデルについて

Whisperの利用料金

Whisperの使い方

OpenAIのAPIキー版

Google Colaboratory版

Whisperを使うメリット

高精度な言語認識性能

労働コスト削減

企業リスク軽減

まとめ

Whisperとは

OpenAIのWhisperは、教師付き学習を通じて多言語音声データを精確に文字に変換する無料の音声認識モデルです。

日本語も含む多言語対応が強みで、5つのモデルサイズで精度を調整できます。

また、Transformer搭載のモデルは98言語の識別と音声英訳も可能で、Google ColaboratoryやHugging Faceを通じて手軽に試せます。

2024年1月時点で、無料のGitHub版と高精度な有料のWhisper-1が利用可能です。

そもそも音声認識AIとは

音声認識は、人間の発声をAIが理解し、テキスト化する技術です。

これはマイクやスマートフォンを通じて音声情報をデジタルデータに変換し、文字起こし、家電操作、議事録の自動作成、通訳、機器操作等に利用されています。

また、人の発声を直接入力することにより、データ入力の効率が向上し、操作ミスを防げます。

Whisperの5つのモデルについて

Whisperは5つの音声認識モデルを提供し、それぞれが異なる精度とパラメータを持っています。

モデル	VRAM	パラメータ	詳細
tiny	～1 GB	39M	処理は速いが、精度は低い
base	～1 GB	74M	tinyモデルとほぼ同性能
small	～2 GB	244M	通常モデル
medium	～5 GB	769M	処理に時間がかかるが、高性能
large	～10 GB	1550M	処理に時間がかかるが、最も高性能

モデルのサイズが大きいほど精度は高くなり、特殊な用語やアクセントに対する対応能力も向上します。

Whisperの利用料金

Whisperはその高い性能を非常に低いコストで利用できる音声認識モデルです。

API経由でWhisperを利用する場合は、1分あたりの料金は0.006ドル（日本円で約1円未満）となっており、この低価格での利用が多くのユーザーに大きなメリットとなっています。

具体的な利用料金は音声ファイルの時間に応じて発生し、文字起こしや英訳の処理で料金が適用されます。

1時間利用した場合を日本円に換算すると約50〜60円です。

コストを抑えたいユーザーにはGoogle Colaboratoryを通じた無料での利用も可能です。

ただし、どちらの方法でも利用前に実行環境の準備が必要となります。

Whisperの使い方

Whisperの使い方を、OpenAIのAPIキー版とGoogle Colaboratory版の2つに分けて紹介します。

OpenAIのAPIキー版

Whisper AIのダウンロードとインストール: OpenAIの公式ウェブサイトからWhisper AIをダウンロードします。ダウンロードが完了したら、指示に従ってインストールを行います。
アカウント作成とログイン: Whisper AIを使用するためには、OpenAIのアカウントが必要です。アカウントをまだ作成していない場合、公式ウェブサイトで新規アカウントを作成します。アカウント作成後、Whisper AIにログインします。
APIキーの設定: OpenAIのAPIキーがWhisper AIの使用に必要になります。OpenAIのダッシュボードからAPIキーを取得し、Whisper AIの設定画面でAPIキーを入力します。

以上の手順で、Whisperを使う準備が整いました。

Google Colaboratory版

Googleアカウントがあれば、どなたでもアクセス可能です。

Google Colaboratoryのページ開き: Google Colaboratoryのページを開きます。
新規ノートブック作成: 自動で表示されるウィンドウの中から、左下の「＋ノートブックを新規作成」を選択します。
接続: 画面が切り替わったら、右上の「接続」をクリックします。クリック後、「RAMディスク」と表示されるまで少し待ちます。
Whisperのインストール: 「!pip install git+https://github.com/openai/whisper.git」を入力し、再生マークのようなボタンをクリックします。
コード追加: コードの実行が完了したら、「＋コード」を選択します。
Whisperのインポート: 1番下に新しい灰色の入力欄が表示されます。「import whisper」を入力して再生マークをクリックします。

これで、環境設定が完了となります。

Whisperを使うメリット

それでは、Whisperを使うメリットを3つ紹介します。

高精度な言語認識性能

1つ目は、Whisperの音声テキスト変換の精度が高いということです。

特に、Word Error Rate（WER）が低いことが特長で、言語による誤認識が少ないことが数値で示されています。

日本語は全言語中で6位にランクインし、5.3％という低いWERを達成しています。

労働コスト削減

2つ目は、人事や労務管理の業務を自動化し効率化できることです。

勤怠管理や給与計算などのプロセスを簡略化することで、手作業によるミスを削減し、企業のコストを大幅に削減することが可能となります。

企業リスク軽減

3つ目は、出退勤の記録や休暇申請などでの不正行為を防ぐことが可能になることです。

これは正確なデータ収集により、不正の発見を容易にし、企業のリスクを軽減する効果があります。

実際に発生する可能性のある損失を未然に防ぐことは、長期的なコスト削減に結びつきます。

まとめ

この記事では、Whisperの基本的な特徴、料金、使用方法、およびビジネスでの利点について説明しました。

文字起こしサービスの中心には、OpenAIが開発した音声認識モデル、Whisperが存在します。

Whisperは、OpenAIのAPIキーまたはGoogle Colaboratoryを通じて利用できます。

API経由でWhisperを使用する場合、費用は約50〜60円/時間となります。

無料で使用したい場合は、Google Colaboratoryがおすすめです。

精度の高い音声認識モデルであるWhisperの導入は、企業の運営効率向上、コスト削減、そして従業員の満足度向上に貢献します。

TEXT：PreBell編集部
PHOTO：iStock

tag: #AI

#ビジネス

この記事を気にいったらいいね！しよう

PreBellの最新の話題をお届けします。

Follow @prebell_jp