Geminiの動画要約機能が「早くて便利すぎる」「動画を見なくても良い」などと、高い評価を得ています。GeminiはGoogleが開発する生成AIであるため、YouTubeとの相性が良く、URLを渡すだけで即座に内容を読み取って日本語の要約を作成してくれます。
Geminiの動画要約機能の実力チェックや、具体的な使用方法、Geminiが動画要約をおこなう仕組みなどに加えて、今後期待されるGeminiによる動画生成の可能性までを詳しく解説します。
Geminiの動画要約機能とは?
Geminiの動画要約機能とは、主にYouTubeに公開されている動画を要約してくれる機能です。Geminiが動画の内容を読み取って、主な内容を抜き出して要約します。
特に、情報量が多く、会話やナレーションが豊富なYouTube動画ではGeminiの動画要約機能が力を発揮し、驚くほど高速に要約をまとめてくれます。単なる動画の内容の文字起こしではなく、しっかりと箇条書きなどで分かりやすくまとめてくれますので非常に便利です。
GeminiでYouTube動画を要約してみる
では実際に、Geminiを使って動画を要約してみましょう。用意するのは要約を行うYouTubeの動画のURLと、Geminiのみです。動画の文字起こしデータなども一切必要ありません。
要約するYouTubeの動画を用意する
今回のGeminiの動画要約のテストには、次のYouTube動画を使用しました。
動画に関する項目 | 内容 |
---|---|
タイトル | Tips on how manage your money during the holiday season |
動画のURL | https://youtu.be/FLJVnjiNq78?si=T7e1WSpFrqkzk1hc |
チャンネル | NBC NEWS |
言語 | 英語 |
動画の長さ | 3分8秒 |
この動画ではスタジオ内にいる2人の男性が、社会問題らしき内容について真剣に話し合っています。また、動画内では多くのスライドが使用されており、会話の内容に沿ってスライドが提示されています。
Geminiを開いてプロンプトを入力
Geminiを開いて、プロンプト(命令文)として「この動画の内容を要約して、日本語でまとめて + 動画のURL」と入力して、Enterキーを押します。
驚くのはGeminiが動画の要約を始めるまでにかかるスピードです。人間には体感できないスピード感ですので、おそらく1秒もかからずに動画の要約を開始します。想像では動画の読み込みに数秒を要し、それから要約を始めるので30秒程度の時間を要するものと想像していましたが、圧倒的なスピード感です。
要約の内容を確認する
実際にGeminiに動画のURLで上記のプロンプトを実行した結果、このような要約文が返ってきました。
![](https://ainformation.jp/wp-content/uploads/2024/11/スクリーンショット-2024-11-30-022843-1024x459.png)
残念ながら英語の動画を視聴して、内容が合っているのかどうかをチェックすることができませんので、動画の文字起こしデータをChatGPTに要約を依頼したところ、ほぼ同じ内容の情報が返ってきました。つまり、Geminiは一瞬で動画の内容を把握して、正確な内容の要約を作成したことになります。
Geminiの動画要約の仕組み
圧倒的なスピードでYouTube動画の要約を行うために、Geminiは以下のような流れで作業を行っています。
YouTube動画のテキスト化
YouTube動画の要約を命令されたGeminiは、まず最初に動画のテキスト化の作業を行います。つまり、Geminiの裏側ではYouTube動画の文字起こしが進められています。また、字幕が付いている動画の場合には、字幕データを取得するそうです。
なお、Geminiを使った文字起こしについては、別記事「Geminiの文字起こしが便利すぎる!使い方の手順を詳しく解説」にて、Google AI Studioを使用して最新版のGeminiを稼働させ、高精度な文字起こしを行う方法を詳しく解説しています。この記事で紹介している通り、Geminiには音声を聞き取って文字起こしをするための高い能力が備わっています。
テキストの情報を把握
次にGeminiは、テキスト化された情報を読み取って、動画の内容を把握します。テキストの情報を処理することは、Geminiの生成AIとしての基本機能ですので、特に難しい作業ではありません。大規模言語モデルが通常のテキストと同じように処理を進めます。
この際、GeminiはGoogle社に蓄積された数多くのリソースを活用することができますので、動画テキストの文脈を正確に理解して、さまざまな情報を補いながら要約に必要な情報をまとめます。
要約文の出力
最後に、Geminiは動画のテキストデータと補足情報を使用しながら、動画の内容を要約します。また、動画が英語で収録されており、日本語での出力が求められている場合には、要約を日本語に翻訳する作業もほぼ同時に行います。
Geminiの動画要約の強み
Geminiが動画の内容を要約に強みがある理由は、どちらのサービスもGoogleが開発していることにあります。Google社内にはYouTube運営で培った動画に関する数多くのノウハウやデータがあり、自動文字起こし機能などのテキスト化の技術も開発・実装してきました。
また、動画の内容から得た情報に加えて、Googleが持つ膨大な情報を補うことが可能で、動画全体の文脈理解にも役立っています。例えば、Googleドキュメントで作成中の文章の中にある誤字脱字を見つけ出す機能などは、動画内の言い間違いなどの修正にも役立ちます。
テキスト化された文章の要約については、ChatGPTやClaudeなども得意としていますが、YouTube動画とのスピーディな連携や、言葉の言い間違いなどを読み解く能力においては、Googleが開発するGeminiの方が優れているようです。
Geminiが要約できない動画
Geminiの動画要約には、今のところ対応ができない動画があります。
- 会話やナレーションの無い動画
- 対応言語以外の動画
- ライブ配信動画
Geminiは動画そのものを閲覧することができません。このため、美しい自然の景色のみが映し出され、会話やナレーションの無い動画については、動画の内容を要約することが出来ません。ただし、Geminiでは動画タイトルやチャンネル名などの数少ないテキスト情報を取得して、可能な限りの要約を行おうと試みます。
また、Geminiは世界各国の多言語に対応が進んでいて、現在のところ約40か国の言語に対応していますが、その他の言語で作成された動画の要約は行うことができません。Geminiが会話やナレーションの内容を理解できることが、要約の条件となります。
さらに、ライブ配信中の動画についてはGeminiによる要約機能は上手く稼働しません。ただし、配信終了後のアーカイブ動画には対応していますので、ライブ配信の内容を要約して分かりやすく視聴者に伝えることには、Geminiの動画要約機能はとても役立ちそうです。
Geminiによる動画生成は可能か?
現在のところ、Geminiによる動画の生成はできません。しかし、Googleが提供するWorkspaceの機能のひとつとして、ビジネス向け動画の作成ツール「Google Vids」が公開されています。この「Vids」にはGeminiの機能も盛り込まれており、動画の台本に合わせて適切な動画を提案する機能が実装されています。
![](https://ainformation.jp/wp-content/uploads/2024/11/スクリーンショット-2024-11-30-035659-1024x669.png)
Googleの動画作成ツールである「Vids」に、公開当初からGeminiが搭載されていることは注目に値します。もしも動画の台本に合わせてオリジナルのAI動画が組み込めるようになったら、とても便利ですね。今後のGoogle社の開発次第では、動画の台本に応じたオリジナルの動画を生成する機能が備わる可能性があります。
Google Vidsの使用方法
Gemini搭載の動画作成ツール「Google Vids」は現在、企業向けの有料サービス「Google Workspace」として公開されています。このため、一般ユーザーが「Vids」を利用することが出来ません。
もし企業などでWorkspaceを導入されている場合には、Workspaceに登録済みのGoogleアカウントで「Vids」にアクセスることによって使用することが可能です。ただし、現在のところ「Vids」の操作に関するマニュアルや、使い方を解説したウェブサイトなどの情報が少ないため、実際に使い始めるには苦労するかもしれません。
実際に「Vids」を触ってみましたが、数分の動画を作成するために数時間を要しました。現段階ではCapcutやCanvaなどで動画制作をする方が、初心者にとっては便利です。
【まとめ】動画の内容を一瞬で要約するGeminiの動画要約
Youtube動画のURLを貼るだけで内容を要約してくれるGeminiの動画要約機能は、日常的な動画視聴やビジネスシーンにおいて、さまざまな活用ができそうな便利な機能です。要約を開始する時間は僅か数秒で、3分程度の動画であれば10秒以内に要点を読み取って要約文を完成させます。
出力された要約文は、Googleのさまざまなツール開発で培ったノウハウが凝縮されており、正確に文脈を読み取って作成されます。テキスト化された文章の要約では、ChatGPTなどの生成AIも対応可能ですが、Youtubue動画などの要約についてはGeminiに強みがありそうです。
また、ビジネス向けのGoogle Workspaceで公開された動画作成ツール「Google Vids」には、初期段階からGeminiが搭載されており、現在のところは台本に合わせたショート動画クリップの候補を見つけ出す程度ですが、今後はGeminiによるオリジナル動画の生成などが期待されます。