Stable diffusionとは？仕組みや料金、使用環境などを解説

2025年1月14日2025年2月3日

ここ数年のAI技術の進化はめまぐるしく、人間が描くよりはるかに優れた絵をAIが自動で生成できるようになりました。

数々の画像生成AIのなかでも、『Stable diffusion』は高品質な画像を生成できることで注目を集めています。

Stable diffusionは初心者でも比較的簡単に扱えることから、画像生成AIを楽しむための最初のとっかかりとして最適です。

この記事では、Stable diffusionとは何か、基本的な使い方や実例、商用利用できるのか、さらにはよくある質問まで分かりやすく解説していきます。

イラストや画像を無料で簡単に作成できる画像生成AIおすすめサイト19選はこちら

AI導入コンサルタント

藤井俊太（Shunta Fujii）

AIのスペシャリストとして、最新のAI情報を常にキャッチ、アップデートしている。自らもAI導入コンサルタントとして活動し、主に生成AIを駆使した業務効率化、生産性向上、新規事業開発を行なっている。
AIの総合情報サイト「AInformation」は、AIに関する専門的な情報やサービス・プロダクトを解説、紹介するWebメディア。AIの専門家集団の編集部がAIの活用法、最新ニュースやトレンド情報を分かりやすく発信していいます。藤井俊太のプロフィール

Stable diffusionとは？

Stable diffusionは、2022年にStability AIが開発した革新的な画像生成AIモデルの1つです。ユーザーが出すテキスト・画像を用いたプロンプトをもとに、オリジナルの画像を瞬時に生成できる深層学習モデルのオープンソースとして公開されている点が特徴です。

さまざまな設定を詳細に作りこむことで、素人の方でもまるでプロが描いたようなイラストや、写真のように美しい画像が作成できます。さらにStable diffusionは、画像生成AIの中でも導入方法が簡単で、画像生成AI自体が初めての方にも人気のあるAIモデルです。

Stable diffusionの仕組み

Stable Diffusionは、ノイズから徐々に画像を作り出す仕組みを持っています。まず完全なノイズ画像から始まり、そこから徐々に不要なノイズを取り除きながら、ユーザーから出されたプロンプトに近づくように画像を生成していきます。分かりやすく例えると、霧の中から徐々に風景が現れてくるようなイメージです。

Stable Diffusionはあらかじめ、画像とその説明文のペアを大量に学習しています。そこからテキストと画像の関係性を見つけ出し、ユーザーが出すプロンプトに応じて適切な画像生成ができるようになっています。

近年の画像生成AIは、学習する際に「CLIP」と「拡散モデル」と呼ばれる2つ学習技術をベースに作られているものがほとんどです。OpenAIが開発した世界的に有名な「DALL-E2」もこの仕組みを利用しています。

AIの学習技術	内容
CLIP	大量の画像とテキストの組み合わせを学習し、画像とテキストの類似度を算出したうえで特定の画像に対して適切なテキストを選択するというアプローチの手法。
拡散モデル	画像生成を発展させるためのベースとなるもの。画像に対してランダムノイズを徐々に当てていき、完全にノイズになったものをさらに逆工程でノイズを取り除き、元の画像に近くなるように学習する技術。

Stable Diffusionでは、「潜在拡散モデル」と呼ばれる拡散モデルの派生形を使用し、計算量を減らすというアプローチが取られているため、たとえPCのスペックが低くても使用できるようになっているのが特徴です。

さらにStable diffusionは、LIONと呼ばれる非営利組織が提供する「LAION-5B：LAION-AESTHETICS」を利用して学習しています。これをもとに学習することで、より高画質の美しい画像を生成することが可能です。

Stable diffusionの使用環境と使い方

Stable diffusionを使用できる環境は２通りあります。

手持ちのPCでインストールする(ローカルインストール)
Webアプリケーション上で使用する

画像生成AI初心者におすすめなのは、Webブラウザ上で今すぐにでも簡単に使用できるアプリケーションを利用した方法です。おもに「Hugging Face」「Dream Studio」「Mage」の3つが有名です。

＜Stable diffusionをWebブラウザで使用する際のアプリケーション＞

	Hugging Face	Dream Studio	Mage
インターフェイス（操作画面の見た目）	シンプル	高機能	シンプル
操作性	簡単	やや複雑	簡単
生成速度	遅い	速い	高い
画質	高い	高い	高井
料金	無料	無料（回数制限あり）	無料
特徴	多様なモデルが利用可能	高速な画像生成	ネガティブプロンプト利用可能
おすすめの人	画像生成AI初心者さまざまなモデルを使用したい人	速度を重視する人	ネガティブプロンプトを使用したい人

これら3つのアプリケーションは、基本的に無料で使用できるため、Steble diffusionを試しに使ってみたい方にもおすすめです。（本格的に使っていきたい方は、「Stable diffusionの料金プラン」内で詳しく解説しています。）

Hugging Face

「Hugging Face」はAI界のGitHubとも言われており、画像生成AIを含むさまざまなAIツールが集まるプラットフォームです。誰でも無料で使用できたり、ほかのユーザーの実用例がたくさん公開されていたり、さらに困ったときには他ユーザーに質問できるコミュニティがあるのも魅力的です。

＜Hugging Faceの使用方法＞

まずは、Stable Diffusion 2.1 Demoにアクセスします。

※Hugging Face実際の画面

上記のような画面が出てきたら「Enter your promp」と記載してある枠に、自分の作りたい画像を指示する文章を英語で入力します。英単語の羅列でも大丈夫ですが、それでも難しい場合は生成AIなどで、日本語の文章を英訳したものをコピペすると簡単です。

Dream Studio

Dream Studioは、Stability AIが提供する画像生成AIのWebサービスです。Stable diffusionをベースにしており、テキストから画像を生成できる使いやすいサービスです。

基本的にはクレジットと呼ばれる回数券のようなもので利用します。新規登録時は無料クレジットが配布されるため、実質無料で使用可能です。より高度な性能を求める方は、有料プランを使用すると良いでしょう。

＜Dream Studioの使用方法＞

まずは、Dream Studioにアクセスします。

※Dream Studio実際の画面

Dream Studioもプロンプトを入力する画面に、作成したい画像の内容を英語で入力し、最後に「Dream」ボタンをクリックします。多少時間がかかりますが、一度に複数のパターンを生成してくれる場合もあります。

Mage

Mageは写実的な画像から芸術的なものまで、多種多様な画像を作成できます。初めての人にも使いやすいサイト設計が施されており、シンプルなテキストでも画像を生成することも可能です。

＜Mageの使用方法＞

まずは、Mage にアクセスします。

※Mage実際の画面

Mageでも、作成したい画像の内容を文章（英語）で入力し、「▶」ボタンをクリックすると、画像を生成してくれます。

こちらも数秒ほど時間がかかりますが、クリアで高画質な画像が作成できます。

それぞれ3つのWebサービスで、実際に作成した画像を後半の「Stable diffusionのできること・できないこと」で掲載していますので、そちらもあわせてご覧ください。

Stable diffusionの料金プラン　

Stable diffusionは、基本的には無料で使用できます。ただし無料で使用する場合、Webブラウザ上で利用するアプリケーションによっては一部制限がかかってしまうこともあります。以下で確認しておきましょう。

＜3つのアプリケーションの料金プランを比較＞

	Stable Diffusion Online	Dream Studio	Mage
無料プラン	画像生成：1日10回まで(広告あり)	無料クレジットを使用する	1日50クレジットまで利用可能(一部制限あり)
有料プラン	プロプラン：月額＄10・年間＄7月間2,000回まで画像生成可能(広告なし) マックスプラン：月額＄20・年間＄14月間2,000回まで画像生成可能(広告なし)	月額＄10～：生成回数や画像サイズに応じて価格が変動する	プロプラン：月額＄15・広告なし・生成回数無制限・全機能利用可能

Stable Diffusionは、上記のようなアプリケーションを利用する場合が、一番簡単に導入できる方法と言えます。どれも無料で試せるので、どれが自分にとって使いやすいのか、実際に触って確かめてみることをおすすめします。

Stable diffusionの著作権

Stable diffusionで作成した画像の権利は、基本的に作成者側にあるため商用利用が可能です。しかし、何をもとに画像を作成するかで著作権法に違反する場合もあります。

Stable diffusionで作成した画像が、どのような場合に商用利用できるのか、またどうすると著作権法に違反してしまうのかについて詳しく見ていきましょう。

Stable diffusionを商用利用できる場合

Stable diffusionで作成した画像を商用利用できるケースとしては、大きく分けて以下の3つが想定されます。

個人のブログやWebメディアでの利用
個人のオンラインショップページでの利用
小規模ビジネスでの利用

上記のシーンでは、イラスト制作・ウェブサイトのビジュアル・製品画像の生成・マーケティングの素材作成などといった使用目的があげられます。以下で、商用利用できる具体的な事例を紹介します。

ケース1:個人のオンラインショップページ

商品の背景画像
SNSの投稿用画像
商品紹介ページのイメージ画像

洋服店を経営している人が、商品写真やコーディネート画像の背景として空や街並みの画像を作成する。

ケース2:ブログやWebメディア

記事のアイキャッチ画像
記事内の解説用画像
サイトのヘッダー用画像

料理ブロガーの人がレシピ記事の装飾用の画像を作成したり、食材の説明用イメージに使用したり、または季節のイベントの関連画像を作成する。

ケース3:小規模ビジネス

広告用のバナー画像
チラシやポスターの素材
プレゼン資料の挿絵

カフェを経営している人が、SNS投稿用の装飾画像やメニューボードの背景画像、季節限定メニューの告知画像を作成する。

Stable diffusionを商用利用できない場合

以下のような場合は、商用利用できるかどうか事前に確認しておく必要があります。

ある画像をもとに画像を作成するとき
AIモデルを利用して画像を作成するとき

実際に商用利用できない場合の具体的なケースを見ていきましょう。

ケース1:キャラクター画像を使用

既存キャラクター画像の模倣
オリジナルキャラクターであるが、既存キャラクターと酷似
商標登録されているキャラクターを利用

グッズショップに勤務している人が、人気アニメキャラクターに似たイラストの生成する。

ケース2:企業のロゴやブランド画像の利用

既存ブランドのロゴを模倣
オリジナルのロゴだが、既存ブランドのロゴに酷似

起業をしようと考えている人が、有名ブランドのロゴを模して自分のブランドロゴを作成する。

ケース3:有名人の画像を使用

有名人の顔をからオリジナル画像を生成
芸能人に似た人物の画像を使用

上記のような事例は、著名人の肖像利用の観点から禁止されているので注意が必要です。

ケース4:わいせつ・違法なコンテンツ

アダルトコンテンツ
暴力的な表現
差別的な表現

上記は倫理的に問題がある可能性が高いので、必ず避けるようにしましょう。

Stable diffusionのできること・できないこと

Stable diffusionはテキストや画像をもとにしたプロンプトから、さまざまなジャンルの静止画を生成することを得意としている反面、できないこともいくつかあります。

以下を読んで、Stable diffusionのできること・できないことを確認しておきましょう。

Stable diffusionのできること　

Stable diffusionは特に風景画、キャラクター、商品イメージの作成や、既存画像のスタイル変換、背景の追加・変更といった画像編集を行えるのが強みです。

Stable diffusionのできることを、実際の画像の作成例と編集の観点から紹介します。

画像生成

＜写真風の作品＞

Hugging Faceで、「Mount Fuji covered in falling snow(雪に覆われた富士山）」と入力すると、以下の画像が生成されました。

ここで注目なのが、富士山が雪に覆われているだけでなく、桜の木がプラスされている点です。Stable diffusionがこれまで学習した情報を駆使しユーザーの意図を汲み取ることで、より魅力的な画像を生成できることが分かります。

※Hugging Face実際の画像

＜イラスト・アート作品＞

Dream studioで、「Create an anime-style image of a dolphin jumping high out of the ocean.(イルカが海から高くジャンプするアニメ風の画像を作成してください。)」と入力すると、テイストの違うイラストを4パターンほど作成してくれました。

※Deam studio実際の画像

4つの画像をよく見ると、イルカの表情や体の質感が異なることが分かります。また、背景の空の色や雲の形、波の動きに変化をつけて荒々しさがある感じ、優しい感じなど1枚1枚がもたらす印象の違いも感じます。1回のプロンプトで、画像の候補をいくつか提示してくれる点も魅力です。

＜商品イメージ＞

Mageで「A red coffee cup against a white background.(白い背景の赤いコーヒーカップ)」と入力すると、とても忠実に再現された画像が生成されました。

※Mage実際の画像

まるで実際に写真を撮ったかのような美しい画像が魅力的です。このツールを上手く利用すれば、実際に写真を撮らなくても、イメージ画像を準備することも可能です。いろいろなシーンで活用の幅が広がりそうです。

画像編集

先ほどの「白い背景の赤いコーヒーカップ」の画像を編集することも可能です。画像編集をする際は、以下のように「カスタマイズ」をクリックします。

※Mage実際の画面①

「カスタマイズ」をクリックすると、以下の「Mage実際の画面②」に移行します。

※Mage実際の画像②

この画面で、以下のような各種編集作業が可能です。

画像の拡張・・・写真の端を広げる・背景の追加・画像サイズの拡大
スタイル変換・・・写真を水彩画風に変換・現代的な写真をレトロ風に変換・リアルな画像をアニメ調に変換
部分的な修正・・・背景の変更・物体の色の変更・天気の変更（晴れ→雨など）

作成したい画像のイメージを1回でプロンプトとして入力するには、何度も訓練が必要です。しかし、いったん画像を作成したあとでも、画像の編集や修正が可能です。何度も手を加えると、まるでプロが描いたかのようなクオリティの高い画像が作れます。

Stable diffusionのできないこと

Stable diffusionは「一枚の静止画」を生成することに特化したAIなので、動画のような時間軸や連続性を要するものは作成できない仕様になっています。また、3Dモデルのような立体的な奥行きの情報を処理することもできません。

＜Stable diffusionのできないこと＞

できないこと	詳細
完璧な写真編集	人物の表情の細かい修正・正確な色合いの再現・細かいテキストの編集
正確な構図の維持	元の写真の構図を完全に保持・正確な縮尺の維持
動画生成	アニメーション・モーショングラフィックス
3Dモデルの生成	立体モデル・3Dプリント用データ・ VR/AR用モデル

Stable diffusionは画像生成AIとして素晴らしい可能性を秘めていますが、まだまだ発展途上の技術であり、動画や3Dモデルの作成や写真編集には不向きと言えます。生成AIそれぞれの得意分野を正しく理解して、より有効的に活用しましょう。

Sable diffusionをほかの画像生成AIサービスと比較

Stable diffusionと同じく人気の高い画像生成AIサービスには、「Midjourney」と「DALL-E 2」があります。Stable diffusionとこれら2つサービスには、とどのような違いがあるのかを一覧表でまとめました。

＜画像生成AIサービス3つを比較＞

	Stable diffusion	Midjourney	DALL-E 2
アクセス手段	オープンソースWebサイト	Discord	WebサイトAPI
画像のスタイル	幅広いジャンルに対応	芸術的幻想的	写実的高精度
カスタマイズ性	高い	中	低
料金プラン	無料有料	有料のみ	有料のみ
メリット	柔軟性オープン性	芸術性が高いコミュニティーがある	よりリアル安全性が高い
デメリット	学習コストがかかる品質にばらつきがある	編集面でのコントロールが難しい	表現に制限がある

これら3つのサービスは、画像生成AIのとっかかりとして使用されることの多いWebサービスです。誰でも無料で使用できるうえ、パラメーター調整やモデルの微調整などにも柔軟に対応できること、ある程度スペックの低いPCであっても問題なく作動するところも人気の理由です。

Stable diffusionは初期費用をかけずに画像生成AIモデルを体験できることや、世界中にユーザーがいるため使用法やプロンプト例などの情報がたくさんシェアされていることも、画像生成AI初心者にとってもメリットと言えます。さらに画像のカスタマイズも柔軟に行えるので、より創造性の高いオリジナル画像が楽しめるでしょう。