Stable Diffusionの「img2img」基本的な使い方

AIで画像から画像を生成することってできるの？

Stable Diffusionと言えば、テキストを入力すると画像を生成できるツールと思う方が多いかと思いますが、

テキストだけでなく「画像」からも画像が生成できます。

今回は、そのツールである「img2img」について、

使用用途や基本的な使い方について説明します。

Stable Diffusionの導入についてはこちらで説明していますので、

参考にしてみてください。

: 【初心者OK】Stable Diffusion web UI(AUTOMATIC1111版)インストール手順

今回は自身のパソコンにインストールしてStable Diffusionを使えるようにするために知っておきたい事前準備 Stable Diffusion web UI(AUTOMATIC1111版)イン ...

続きを見る

Stable Diffusionの「img2img」とは何か

Stable Diffusionの「img2img」とは、画像から画像を生成できる機能

「Image to Image」の略です。

テキストから画像を生成するのではなく

生成した画像を変化させたいとき
写真をイラストにしたいとき
ラフの線画をちゃんとした画像に生成したいとき

などに使います。

「img2img」の基本的な使い方

基本的な使い方の手順は以下の通り

生成に使う元となる画像をアップロード
プロンプト（テキスト）で指示
サイズの設定
「Denoising strength」を設定

プロンプトを入力するのは、「txt2img」と同じですが、「img2img」の場合、参照元となる画像を元に出すプロンプトとなるので、1からテキストで作るよりはイメージに近い画像が「txt2img」より早く生成できるでしょう。

「Denoising strength」とは、生成する際の変化量の設定になります。

生成した画像のフォルダは

Stable Diffusion/outputs/img2img-images

になります。

この流れに沿って実際に「img2img」の使い方をステップごとに見ていきましょう。

生成に使う元となる画像をアップロード

Monosnap Stable Diffusion パラメーター全体画面

Stable Diffusionを立ち上げます。

最初の画面は「txt2img」の画面になります。

画面上部にあるタブに「img2img」があるのでクリックします。

sd_img2img_画面全体

プロンプト入力欄の下にある「Generation」タブ内が最初開かれます。

この「img2img」にあるエリアに画像をドロップ、またはクリックしてアップロードします。

画像サイズが大きいとエラーがでるので、サイズを調整してから再度アップロードしてみてください

プロンプト（テキスト）で指示

プロンプトの入力欄にテキストを入力します。

元画像のクオリティが良くても、高クオリティするためのプロンプトは入力しておきましょう。

プロンプトについてはこちらをご覧ください。

: 【Stable Diffusion】プロンプトの作り方・ルール

AIによる画像生成ツール「Stable Diffusion」は、テキストプロンプトを基に多彩なビジュアルを作り出せる強力な技術です。しかし思い通りの画像を得るためには、適切なプロンプトの作成が欠かせ ...

続きを見る

「txt2img」と同じく、Embeddingも使用できます。

「Generation」の隣にある「Textual Inversion」のタブを開くと、導入済みのEmbeddingを利用できます。

Embeddingについてはこちらをご覧ください。

: 【StableDiffusion】Embedding導入方法・おすすめについて

今回はStableDiffusionでの画像生成クオリティをアップ、また作業効率化を図れる「Embedding」について説明します。モデルをダウンロードする ...

続きを見る

サイズの設定

画面を下にスクロールすると、サイズに関する項目があります。

Stable Diffusion_Resize_to

ここでサイズを変更すると、縦伸び、横伸びなどする場合があります。

基本的にはアップロードした画像と同じサイズにしましょう。

📐三角定規のアイコンをクリックすると、アップロードした画像サイズに自動で合わせてくれます。

「Denoising strength」を設定

Denoising strength

「Denoising strength」で、生成する際の変化量の設定をします。

数値については

小さい数値(最小値：0）ほど元画像から似た画像を生成
大きい数値（最大値：1）ほど元画像から離れた画像を生成

「0」では変化は見られないので、以下の数字で比較してみました。

Denoising strength数値比較

生成の回数は複数回試した方がいいです。

数値が上がるにつれ、背景など含めだいぶ変わっていきます。

デフォルトで「0.75」となっていますが、あまりニュアンスを変えたくない場合は0.5以下から試した方がいいでしょう。

「1」にするともはや別画像です。

ここまでの手順で準備ができたら、右上にある「Generate」ボタンを押すと画像が生成されます。

応用①：画像サイズを2倍にする

resize_by

先程の画像サイズの設定の場所にタブで「Resize by」というものがあります。

スケールの数値を設定します。

例えば「2」にすると、元画像の2倍のサイズで生成されます。

応用②：Resize mode

img2imgにはリサイズ用のモードとして、

Just resize
Crop and resize
Resize and fill
latent upscale

という4種があります。

元画像のサイズ512×512を

512×800（高さを変更）にして４つを比較してみましょう

Resize mode比較

「Just resize」は画像が一見綺麗に見えるのですが、画像が伸びてしまっています。

「Crop and resize」がこの中で一番綺麗なのですが、元画像は肩や腕まで見えるのに対し、寄ってトリミングされています。

「Resize and fill」と「Resize and fill」は画像がぼやけたり、伸びてしまっているのですが、

「Resize and fill」と「Resize and fill」を使う場合は、

[Denoising strength]の数値を0.5以上にして生成しましょう。

Resize and fill比較

「Resize and fill」で「Denoising strength」の数値を変えてみました。

[0.3]だとまだ引き延ばした感じが残ります。

[0.5]から服も生成し、引き延ばされた感じのぼやけたのは取れました。

画像によって出来は変わるので、色々試してみてください。

まとめ

「img2img」は「txt2img」で生成した画像の手や指などの修正をしたい時などにも使えますし、

落書きの画像からも生成してくれます。

また、実写画像をアニメ画にすることもできます。

使用用途はたくさんありますので、また「img2img」については追記で更新していきます。

始めたばかりの方は、「txt2img」でプロンプトを色々試してからやる方が、どの単語でどのような指示を出せるか分かるので、まずはテキストで生成していくのをおすすめします。

指や手の生成に関するネガティブプロンプトを簡単に挿入できる

: 「bad-hands-5」で生成の手や指の崩れを抑える【Stable Diffusion】

画像生成AIの苦手な部分に手や指の生成があります。通常のプロンプト指示だけでは生成の成功率が低いため、Stable Diffusionでは「指や手の指示」に特化した機能があります。その中でもよく ...

続きを見る

拡張機能を導入すると作業効率がUPします。

: 【Stable Diffusion】拡張機能の導入方法・おすすめ【Extensions】

Stable Diffusion拡張機能は、画像生成作業を効率的かつ簡単に行えるようサポートする強力なツールです。初心者の方は特に、拡張機能を使うことで効率よく画像生成が ...

続きを見る

ぼやけた感じや薄い色をもう少し彩度を上げたいなど画質向上には「VAE」というツールを使います。

: 【Stable Diffusion】VAEとは何か。使い方や便利な設定について

Stable Diffusionの「VAE」という機能を使うと簡単に画質を向上することができます。生成した画像にもよりますが、簡単に言うと「クリアにする」ハッキリとクリアにするにはプロンプトで指 ...

続きを見る