Stable Diffusion XLとは？使い方や旧モデルとの違いなど

2024年4月24日

Stable Diffusion XLとは、Stability AI社が開発したStable Diffusionの最新モデルで、SDXLと略されます。

2023年の7月に正式版SDXL1.0、その後、11月にはSDXL Turboが発表されました。

この記事では、Stable Diffusion XLの詳細や使い方を紹介します。

Stable Diffusion XLとは

Stable Diffusion XL（SDXL）は、Stability AI社により開発され、オープンソース化されている画像生成AIの最新モデル(2024年4月時点)です。

以前のモデルよりも精度が高く、より幅広いスタイルの画像を生成できるようになりました。

Stable Diffusion XLと旧モデルの違い

Stable Diffusion XLの特徴は大きく3つあります。

パラメータ数が2倍以上に大幅に拡大
デフォルトの画像生成サイズが拡大
幅広いスタイルの画像を生成可能

Stable Diffusionのデフォルトで入っているモデルよりも上位互換であるため、導入するメリットがあります。

しかし、推奨されるメモリは16GB以上、GPUメモリ(VRAM)が12GB以上なので、使用PCに余裕があるか確認してから導入してみましょう。

パラメータ数が2倍以上に大幅に拡大

Stable Diffusion XL 1.0では従来のバージョンに比べてパラメータ数が2倍以上拡大しました。

このモデルは2つで構成されており、1つ目は3.5B（35億）のパラメータを持つ基本モデル、2つ目は6.6B（66億）パラメータを持つリファイメント(精密化)モデルです。

Stable Diffusion XLは、これまでの仕組みと大きく異なり、1回の画像生成で、まずは基本モデルが画像の草案を生成し、その後リファイメント(精密化)モデルが画像を綺麗にして仕上げます。

この2回生成するプロセスを経ることによって、Stable Diffusion XLの描写力が飛躍的に向上しました。

デフォルトの画像生成サイズが拡大

Stable Diffsuionで生成される画像の解像度は512×512が最大サイズでしたが、SDXL 1.0では最大1,024×1,024のサイズ出力が可能となりました。

それに応じて、コントラストや照明、影の投影が改善され、高解像度でも鮮やかな描写が可能となりました。

幅広いスタイルの画像を生成可能

Stable Diffusion XLでは、複雑なプロンプトを組まずに簡単なプロンプトで高品質な画像を生成できるようになりました。

さらに、構図が大幅に改善され、生成できる画像のパターンが増えました。

詳しくは、現在公開されている技術レポートをご覧ください。

Stable Diffusion XLのおすすめモデル

Stable Diffusion XL自体はベースモデルとなっており、このモデルから派生した数々のモデルが公開されています。

その中で、各スタイルに特化したおすすめのモデルを3つ紹介します。

Juggernaut XL

Juggernaut XLは、写真のようなリアルな画像の生成に特化したモデルです。

人や動物だけでなく、風景なども再現が可能です。

夏の日没前、カラフルな髪の色をした20歳の日本人の女の子を顔をアップにしてカメラ目線で正面から撮影した画像を生成します。

使用したプロンプト

[hyperrealistic rendition, ultra detailed, realistic, high definition, realistic photo , 20 year old, colorful hair color. Japanese girl, focus on eyes, close up on face, hair styled as up, summer forest, golden hour]

ネガティブプロンプト
[ugly, deformed, (worst quality, low quality:1.2)]

Juggernaut XL
https://civitai.com/models/133005/juggernaut-xl

AAM XL (Anime Mix)

AAM XLは、日本のアニメのイメージに近いイラストが得意なモデルで、人物の細かい描写以外にもロボットなどの生成できます。

朝の公演で目を閉じながら歌を歌う少女の絵を生成してみます。

使用したプロンプト

[best quality, highres, anime, anime style, singing song, closed eyes,upper body, green park,morning]

ネガティブプロンプト
[worst quality, low quality]

AAM XL (Anime Mix)
https://civitai.com/models/269232/aam-xl-anime-mix

AfterRealXL

AfterRealXLは、グラビアなどリアルな人物の描写に特化しているモデルで、主にAIグラビアなどに利用されています。

制服を着て猫耳をつけているセクシーな日本人女性をプロの写真風に撮影した画像を生成します。

使用したプロンプト

[a professional photographic beautiful japanese girl,night location,sexy uniform,joy smile,Cat ear]

ネガティブプロンプト
[(worst quality, low quality:1.4), (deformed, distorted, disfigured:1.3), (depth of field, bokeh, blurry, blurry background:1.4), manicure,lip]

AfterRealXL
https://huggingface.co/sazyou-roukaku/AfterRealXL

以下の記事では、モデルの入れ方やおすすめのStable Diffusionモデルを紹介していますので参考にしてみて下さい。