Geminiの文字起こしが、無料ながら精度が高くて便利だと話題です。
音声や動画からの文字起こしは、会議やセミナー音声の文字起こしのほか、YoutubeやInstagramのリール、Tictokなどの動画コンテンツの人気と共に、需要が高まっています。文字起こし専用のソフトやツールも数多く存在していますが、実はGeminiなら文字起こしが無料かつ高精度で行えます。
Geminiの文字起こしの精度チェックをはじめ、具体的なやり方や便利な活用方法などについてシチュエーション別に解説します。
Geminiを使った文字起こしのメリット
Geminiによる文字起こしを使用するメリットは、何といっても無料であることです。一般的に文字起こしのために開発されたツールの使用料は月額1000円以上で、文字起こしが出来る文字数や分数などに制限が設けられています。日常的かつ頻繁に文字起こしをされる場合であれば、このような文字起こし専用ツールを契約されるのも良いのかもしれませんが、やはり無料であることは大きなメリットです。
さらに、Geminiの文字起こしは無料でありながらも、高いクオリティが評価されています。低品質な音声であっても、細かな言葉やキーワードを拾い上げて、文字起こしをしてくれます。決して専門の文字起こしツールにも負けない高精度の仕上がりですので、さまざまなシチュエーションで活用できそうです。
では、実際にGeminiで文字起こしをするための方法を、はじめての方でもできるように丁寧に解説していきます。
Geminiの文字起こしの手順
Geminiの文字起こしを無料で利用する方法として、使い方や手順を詳しく解説します。デベロッパー向けの専門的なツールを使用しますが、分かりやすく解説しますので安心して進めてくて下さい。
文字起こしに必要な動作環境や用意するもの
Geminiで文字起こしをするために、用意するものは次の3つです。
- インターネットに接続できる環境
- 文字起こしをする音声ファイル(mp3)
- Googleの個人アカウント
Geminiはオンライン上で稼働しますので特にハイスペックなパソコンは不要ですが、音声ファイルのアップロードが必要であるため、安定したインターネット接続環境での作業が好ましいです。
また、Geminiの利用にはGoogleの個人アカウントが必要です。このあと説明する通り、Googleのサービスをいくつか使用しますので、必ず個人アカウントで利用してください。
Google AI Studioにアクセス
Geminiによる文字起こしは、通常のGeminiのサイトではなく、ディベロッパー向けのツールである「Google AI Studio」を使用します。無料で最新のバージョンのGeminiが使える非常に便利なツールです。
利用規約に同意する
はじめてGoogle AI Studioを利用される方は、最初に利用規約などがポップアップされますので、必要箇所をチェックして同意してください。
プロンプトの入力画面で「Gemini 1.5 Pro 002」を選択
続いて、使用するGeminiのバージョンを選択します。画面の左にあるメニューから「Create new prompt」をクリックします。開いた画面の右側に「Model」の項目がありますので、最新版のGeminiである「Gemini 1.5 Pro 002」を選択しましょう。
プロンプト入力フォームでGoogleドライブと接続
Google AI Studioのプロンプト入力画面で、画面の一番下にある入力フォームの右側にあるプラスボタン(+)をクリックするとメニューが開き、「Allow Drive access」をクリックしてGoogleドライブと接続します。いくつかのポップアップが開きますので、すべて許可してください。
プロンプトの入力とファイルのアップロード
いよいよGeminiによる文字起こしのためのプロンプトの入力を行います。プロンプトには、次のような内容を含んでおくことで文字起こしの精度が高まります。
- どのような内容の音声であるのか
- 登場人物は何人で誰なのか
- 「えー」「あのー」などの除去の要・不要
また、さきほどGoogleドライブと接続する際にクリックしたプラスボタンから「Upload File」を選択して、パソコンなどからGeminiに文字起こしを依頼する音声ファイルを選択して、アップロードしてください。
文字起こしにタイムスタンプをつける方法
文字起こしにタイムスタンプを付けたい場合には、プロンプトに「タイムスタンプを付けて」と記述するだけでOKです。また、「発言者ごとにタイムスタンプを付けて」や「タイムスタンプに発言者の名前も付けて」などの指定も可能です。GeminiのAIを使うことができるため、文字起こしの指定の自由度がとても高いです。
Geminiのバージョンによる文字起こし精度の比較
Geminiで文字起こしをする際には、最新版を利用することがおすすめです。しかし、音声ファイルが長かったり、できるだけ早く文字起こしを終わらせたいときには、古いバージョンのGeminiの利用も検討されるかもしれません。そこで、Geminiの「1.5 Pro 002」「1.5 Pro」「1.5 Flash」の3つのバージョンで同じ音声ファイルを文字起こしして比較してみました。
今回の比較には、ある日本人メジャーリーガーの結婚記者会見の音声ファイル(長さ8分50秒)を使用して、登場人物として選手本人、通訳、日本人記者、外国人記者の音声が入り混じっているものを使用しました。
Gemini文字起こし比較 | Gemini 1.5 Pro 002 | Gemini 1.5 Pro | Gemini 1.5 Flash |
---|---|---|---|
文字起こし時間 | 68秒2 | 56秒9 | 27秒9 |
発言者の識別 | 〇 | 〇 | 〇 |
言語の識別 | 〇 | 〇 | 〇 |
フォーマット | 成形済み | 成形あり | 成形無し |
僅か9分弱の音声ファイルですが、実際に各バージョンのGeminiで文字起こしをしてみると、随分と文字起こしにかかる時間に差がありました。スピード重視のFlashが最も早いのは当然ですが、最新版の1.5 Pro 002と比べると半分以下の時間で作業を終えています。
文字起こしのクオリティについては、ほぼ全てのバージョンで大差はなく、発言者である選手、通訳、記者を聞き分けており、発言の前に発言者を記載しています。また、今回の比較テストでは日本語と英語が混ざっていることもポイントですが、英語と日本語をそれぞれ文字お越ししており、その内容も正確でした。
スピード重視なら「Flash」、文章のフォーマットは「Pro」
Geminiの文字起こしのバージョン別の比較によって判明したことは、スピードを重視するのであれば圧倒的に「Flash」が好ましいということです。一方、出力される文字起こしのスタイルについては、「Pro」の方が綺麗な状態になっているため、そのままコピペすることで資料として完成度が高いものとなります。
9分の動画で30秒以上の違いが出る点をどこまで重視するのかによって、どのバージョンを使用するのかを決定するのが良いでしょう。
Geminiの文字起こしの活用方法
Geminiの文字起こしを実際に活用する方法として、利用シチュエーションを紹介します。もちろん、ここで紹介する以外にも皆さんの創意工夫で活用できる場面は数多くあります。
会議やセミナーの文字起こし(議事録)
会議やセミナーの文字起こしは、発言者の数が多く、専用の文字起こしツールでなければ難しいとされてきました。しかし、Geminiの文字起こしは複数の発言者の会話にも強く、専門用語にも対応してくれるため、これまでのように専用ツールを使用しなくても無料で高精度な文字起こしが実現します。
Youtube動画を文字起こし(記事化)
Youtubeをはじめとした動画コンテンツの文字起こしは、ブログ記事などへの転用の目的で幅広く利用されています。Geminiの文字起こしも動画コンテンツの音声を文字起こしをするのには最適で、どのような内容の動画であるのかを伝えることによって、さらに精度の高い文字起こしを行うことが可能です。
他の文字起こしツールとの比較
Geminiの文字起こしについて、文字起こしに特化したツールと比較してみます。AIを活用した文字起こしツールとして有名なNottaと、日本の企業での導入実績が多いtorunoを比較対象としました。
文字起こしツール比較 | Gemini | Notta | toruno |
---|---|---|---|
無料プラン | すべて無料 | あり(月120分) | あり(累計3時間まで) |
有料プラン | – | 1317円/月(月30時間) | 1650円/月(月10時間) |
利用目的 | 議事録(Zoom含む) 文字起こし | 議事録(Zoom含む) 文字起こし | 議事録(Zoom含む) 文字起こし |
AI要約機能 | あり | あり | なし |
【まとめ】Geminiの文字起こしは、専用ツールにも負けない高精度
Geminiによる文字起こしについて、使い方や手順、バージョン比較や他社比較など、さまざまな角度から解説を行いました。Google AI Studioを活用すると、無料で高精度な文字起こしができることがGeminiの大きなメリットです。
デベロッパー向けのGoogle AI Studioに少しハードルの高さを感じられる方がいるかもしれませんが、この記事を読みながら進めれば文字起こしが可能ですので、是非試してみてください。