日本語も高精度と話題、文字起こしAI「Whisper」を解説！

近年、言語AI（人工知能）の活用法が話題になっています。

中でも文字起こしのツールは国内外で増えており、特に注目を集めているのは、米国OpenAI（オープンAI）が提供する音声認識AI「Whisper（ウィスパー）」です。

この記事では、高精度の音声認識AI「Whisper」とはどういったものなのか、使い方やメリット・デメリットまで解説します。

音声認識モデル「Whisper」とは

「Whisper」は、ChatGPTなどを開発した「OpenAI（オープンAI）」が提供する音声認識AIです。

OpenAIは、社会に貢献することを目指す非営利の研究組織で、「Whisper」をはじめとしたサービスは一般の方でも無料で使用することができます。

Whisperの設計を簡単にご紹介します。Webから収集された680,000時間分の多言語情報に対し、機械学習アルゴリズムと深層学習を用いることで、自動で音声を認識できるシステムになっています。日本語や英語だけでなく、幅広い言語に対応しており、アクセントや雑音の聞き分けも可能にしています。

Whisperには次の５つのモデルサイズ（参考：https://github.com/openai/whisper）があります。

・tiny

・base

・small

・medium

・large

どのような文章を文字起こししたいのかによって使い分けることができます。

使用された方からは「高い精度で文字起こしできる」「日本語の認識精度もかなり高くて驚いた」などの声が上がっています。

「Whisper」文字起こしの活用方法

実際にどのようにWhisperを使うのか解説します。

Whisperを使う場合、次の選択肢があります。

①API経由で利用する方法

②実行環境を自身で用意して利用する方法

③「Whisper」の音声入力に対応した「ChatGPT」アプリ版を利用する方法

前提として、Whisperを利用するにはプログラミング言語「Python」に対応した環境が必要です。

①API経由で利用する

API経由で利用する場合、同社の公式サイトからダウンロードして利用します。この場合は有料となります（2024年3月時点では１分ごとに0.006ドル）。価格としては安いので、利用のハードルは低いです。

②実行環境を自身で用意して利用する

実行環境を自身で用意する場合、無料で利用可能です。方法はいくつかありますが、Googleアカウントがあれば実行環境が整う、Google Colaboratory版がおすすめです。

Google Colaboratoryとは、Googleが機械学習や研究用に提供しているサービスです。ソフトウェア等のインストール不要で、Whisperに必要なPythonの環境を整えることができます（機械学習・深層学習にも対応しています）。

この場合の手順は次の通りです。

・Google Colaboratoryを開き、「＋ノートブックを新規作成」を選択。

・右上の「接続」ボタンをクリックし、「RAMディスク」と表示されることを確認。

・コード入力欄に「!pip install git+https://github.com/openai/whisper.git」を入力し、実行ボタンをクリック。

・完了したら「＋コード」ボタンをクリックして下部にコード入力欄を表示。

・コード入力欄に「import whisper」を入力し、実行ボタンをクリック（以上で環境設定は終了）

・文字起こしさせたいファイルを準備し、画面左側のファイルのボタンをクリックし、表示されたファイルの中から「content」を選択。

・音声ファイルを「content」内にドラッグ＆ドロップしてアップロード。

・アップロードできたら「＋コード」ボタンをクリックし、下部にコード入力欄を表示。

・コード入力欄に次のコードを入力し、実行ボタンをクリック。

model = whisper.load_model(‘base’)

result = model.transcribe(‘ファイル名’)

print(result[‘text’])

・処理が完了すると、下部に文字起こし結果が表示される。

③「Whisper」の音声入力に対応した「ChatGPT」アプリ版を利用する

「Whisper」を無料で試してみる方法として、「Whisper」の音声入力に対応した「ChatGPT」アプリ版を利用する方法があります。ただ、音声ファイルからの文字起こしには対応しておらず、口述筆記（その場で話したことを筆記していくこと）のみ文字起こしが可能となっています。

今後機能が拡充していく可能性はありますので、要注目です。

「Whisper」を使って文字起こしするメリット

ここまで「Whisper」の概要を説明してきましたが、自力での文字起こしや他のサービスを使用したときと比べてどのようなメリットがあるのかも解説していきます。

まず、文字起こしを自動化する一般的なメリットは次の通りです。

・作業の効率化がつながる

・作業負担が軽減される、もしくは、なくなる

・人件費削減につながる

他のサービスやツールと比較したときの「Whisper」のメリットには次のようなものがあります。

精度が高い

特に、単語誤り率（Word Error Rate; WER）が低いことが特長とされています。加えて、言語による誤認識が少ないことも示されています。日本語も、「Whisper」が扱う幅広い言語の中で認識率６位にランクインしており、5.3％という低いWERを達成しています。

無料で利用できる（有料版も安価で利用できる）

文字起こしツールの料金は、「◯分あたり◯円」といった時間単位のものから、「月額◯円で◯分まで使用可能」といったサブスクタイプのものまで様々です。Whisperは無料でも利用でき、有料版の料金も他ツールと比較して安価であるといえるでしょう。

「Whisper」を使って文字起こしするデメリットと代替の手段

デメリットについても考えていきたいと思います。

環境構築など導入のハードルが高い

有料版の場合はAPI連携、無料で利用する場合は自身で環境構築をする必要があり、そのような作業に慣れない方には負担になるでしょう。また、WhisperをはじめOpenAIの提供するサービスは、基本的に英語での説明書きである場合が多いです。使用していて問題があった際、日本企業が提供するサービスのように問い合わせができないことも想定されます。