Geminiの文字起こしが便利すぎる!使い方の手順を詳しく解説

Gemini文字起こし

Geminiの文字起こしが、無料ながら精度が高くて便利だと話題です。

音声や動画からの文字起こしは、会議やセミナー音声の文字起こしのほか、YoutubeやInstagramのリール、Tictokなどの動画コンテンツの人気と共に、需要が高まっています。文字起こし専用のソフトやツールも数多く存在していますが、実はGeminiなら文字起こしが無料かつ高精度で行えます。

Geminiの文字起こしの精度チェックをはじめ、具体的なやり方や便利な活用方法などについてシチュエーション別に解説します。

目次

Geminiを使った文字起こしのメリット

Geminiによる文字起こしを使用するメリットは、何といっても無料であることです。一般的に文字起こしのために開発されたツールの使用料は月額1000円以上で、文字起こしが出来る文字数や分数などに制限が設けられています。日常的かつ頻繁に文字起こしをされる場合であれば、このような文字起こし専用ツールを契約されるのも良いのかもしれませんが、やはり無料であることは大きなメリットです。

さらに、Geminiの文字起こしは無料でありながらも、高いクオリティが評価されています。低品質な音声であっても、細かな言葉やキーワードを拾い上げて、文字起こしをしてくれます。決して専門の文字起こしツールにも負けない高精度の仕上がりですので、さまざまなシチュエーションで活用できそうです。

では、実際にGeminiで文字起こしをするための方法を、はじめての方でもできるように丁寧に解説していきます。

Geminiの文字起こしの手順

Geminiの文字起こしを無料で利用する方法として、使い方や手順を詳しく解説します。デベロッパー向けの専門的なツールを使用しますが、分かりやすく解説しますので安心して進めてくて下さい。

文字起こしに必要な動作環境や用意するもの

Geminiで文字起こしをするために、用意するものは次の3つです。

  • インターネットに接続できる環境
  • 文字起こしをする音声ファイル(mp3)
  • Googleの個人アカウント

Geminiはオンライン上で稼働しますので特にハイスペックなパソコンは不要ですが、音声ファイルのアップロードが必要であるため、安定したインターネット接続環境での作業が好ましいです。

また、Geminiの利用にはGoogleの個人アカウントが必要です。このあと説明する通り、Googleのサービスをいくつか使用しますので、必ず個人アカウントで利用してください。

Google AI Studioにアクセス

Geminiによる文字起こしは、通常のGeminiのサイトではなく、ディベロッパー向けのツールである「Google AI Studio」を使用します。無料で最新のバージョンのGeminiが使える非常に便利なツールです。

Google AI Studio

利用規約に同意する

はじめてGoogle AI Studioを利用される方は、最初に利用規約などがポップアップされますので、必要箇所をチェックして同意してください。

プロンプトの入力画面で「Gemini 1.5 Pro 002」を選択

続いて、使用するGeminiのバージョンを選択します。画面の左にあるメニューから「Create new prompt」をクリックします。開いた画面の右側に「Model」の項目がありますので、最新版のGeminiである「Gemini 1.5 Pro 002」を選択しましょう。

Geminiのバージョンの選択

プロンプト入力フォームでGoogleドライブと接続

Google AI Studioのプロンプト入力画面で、画面の一番下にある入力フォームの右側にあるプラスボタン(+)をクリックするとメニューが開き、「Allow Drive access」をクリックしてGoogleドライブと接続します。いくつかのポップアップが開きますので、すべて許可してください。

Google AI StudioとGoogleドライブの接続

プロンプトの入力とファイルのアップロード

いよいよGeminiによる文字起こしのためのプロンプトの入力を行います。プロンプトには、次のような内容を含んでおくことで文字起こしの精度が高まります。

  • どのような内容の音声であるのか
  • 登場人物は何人で誰なのか
  • 「えー」「あのー」などの除去の要・不要

また、さきほどGoogleドライブと接続する際にクリックしたプラスボタンから「Upload File」を選択して、パソコンなどからGeminiに文字起こしを依頼する音声ファイルを選択して、アップロードしてください。

文字起こしにタイムスタンプをつける方法

文字起こしにタイムスタンプを付けたい場合には、プロンプトに「タイムスタンプを付けて」と記述するだけでOKです。また、「発言者ごとにタイムスタンプを付けて」や「タイムスタンプに発言者の名前も付けて」などの指定も可能です。GeminiのAIを使うことができるため、文字起こしの指定の自由度がとても高いです。

Geminiのバージョンによる文字起こし精度の比較

Geminiで文字起こしをする際には、最新版を利用することがおすすめです。しかし、音声ファイルが長かったり、できるだけ早く文字起こしを終わらせたいときには、古いバージョンのGeminiの利用も検討されるかもしれません。そこで、Geminiの「1.5 Pro 002」「1.5 Pro」「1.5 Flash」の3つのバージョンで同じ音声ファイルを文字起こしして比較してみました。

Gemini 1.5 Pro 002の文字起こし結果

今回の比較には、ある日本人メジャーリーガーの結婚記者会見の音声ファイル(長さ8分50秒)を使用して、登場人物として選手本人、通訳、日本人記者、外国人記者の音声が入り混じっているものを使用しました。

Gemini文字起こし比較Gemini 1.5 Pro 002Gemini 1.5 ProGemini 1.5 Flash
文字起こし時間68秒256秒927秒9
発言者の識別
言語の識別
フォーマット成形済み成形あり成形無し
Geminiのバージョンによる文字起こしの比較

僅か9分弱の音声ファイルですが、実際に各バージョンのGeminiで文字起こしをしてみると、随分と文字起こしにかかる時間に差がありました。スピード重視のFlashが最も早いのは当然ですが、最新版の1.5 Pro 002と比べると半分以下の時間で作業を終えています。

文字起こしのクオリティについては、ほぼ全てのバージョンで大差はなく、発言者である選手、通訳、記者を聞き分けており、発言の前に発言者を記載しています。また、今回の比較テストでは日本語と英語が混ざっていることもポイントですが、英語と日本語をそれぞれ文字お越ししており、その内容も正確でした。

スピード重視なら「Flash」、文章のフォーマットは「Pro」

Geminiの文字起こしのバージョン別の比較によって判明したことは、スピードを重視するのであれば圧倒的に「Flash」が好ましいということです。一方、出力される文字起こしのスタイルについては、「Pro」の方が綺麗な状態になっているため、そのままコピペすることで資料として完成度が高いものとなります。

9分の動画で30秒以上の違いが出る点をどこまで重視するのかによって、どのバージョンを使用するのかを決定するのが良いでしょう。

Geminiの文字起こしの活用方法

Geminiの文字起こしを実際に活用する方法として、利用シチュエーションを紹介します。もちろん、ここで紹介する以外にも皆さんの創意工夫で活用できる場面は数多くあります。

会議やセミナーの文字起こし(議事録)

会議やセミナーの文字起こしは、発言者の数が多く、専用の文字起こしツールでなければ難しいとされてきました。しかし、Geminiの文字起こしは複数の発言者の会話にも強く、専門用語にも対応してくれるため、これまでのように専用ツールを使用しなくても無料で高精度な文字起こしが実現します。

Youtube動画を文字起こし(記事化)

Youtubeをはじめとした動画コンテンツの文字起こしは、ブログ記事などへの転用の目的で幅広く利用されています。Geminiの文字起こしも動画コンテンツの音声を文字起こしをするのには最適で、どのような内容の動画であるのかを伝えることによって、さらに精度の高い文字起こしを行うことが可能です。

他の文字起こしツールとの比較

Geminiの文字起こしについて、文字起こしに特化したツールと比較してみます。AIを活用した文字起こしツールとして有名なNottaと、日本の企業での導入実績が多いtorunoを比較対象としました。

文字起こしツール比較GeminiNottatoruno
無料プランすべて無料あり(月120分)あり(累計3時間まで)
有料プラン1317円/月(月30時間)1650円/月(月10時間)
利用目的議事録(Zoom含む)
文字起こし
議事録(Zoom含む)
文字起こし
議事録(Zoom含む)
文字起こし
AI要約機能ありありなし
Geminiと文字起こし専用ツールとの比較

【まとめ】Geminiの文字起こしは、専用ツールにも負けない高精度

Geminiによる文字起こしについて、使い方や手順、バージョン比較や他社比較など、さまざまな角度から解説を行いました。Google AI Studioを活用すると、無料で高精度な文字起こしができることがGeminiの大きなメリットです。

デベロッパー向けのGoogle AI Studioに少しハードルの高さを感じられる方がいるかもしれませんが、この記事を読みながら進めれば文字起こしが可能ですので、是非試してみてください。

この記事を書いた人

AIの総合情報サイト「AInformation」は、AIに関する専門的な情報やサービス・プロダクトを解説、紹介するWebメディアです。AIの専門家集団の編集部がAIの活用法、最新ニュースやトレンド情報を分かりやすく発信しています。

目次