「Stable Diffusion」を触ってみた感想

今回は、最近やたらと話題になっているAIによる画像生成について、専門的な知識も何もない人間がちょっと触って考えたことをだらだら書いていきたいと思います。導入の仕方とかの解説などではないのであしからず。

最近「Midjourney」「Stable Diffusion」といった画像生成AIサービスが話題になっており、普段イラストを描かない人でも簡単にプロレベルのイラストを作れるというところから注目を集めている。自分も大手メディアのGIGAZINEさんの記事を元に「NMKD Stable Diffusion GUI」を導入し触ってみた。
ツールを設定後、適当に「prompt」の中に英語で単語や文章を入れると、その言葉を拾ってAIが絵を描いてくれた。promptに入れる言葉次第で自分のイメージに近づくか遠ざかるかが決まるため、ここに入れる単語や文章は「呪文」といわれているそうだ。毎回起動直後の最初の1枚は時間がかかるが、その後は設定さえ変えなければ大体1枚30秒前後くらいで生成してくれた。ちょっと待つ気もするが、出来上がる画像の緻密さを考えるとすごいことだと思う。

Japan, Tokyo, Train, Dramatic Lighting…などの呪文で生成された絵。
この緻密さの画像が30秒ほどで出てくるのだから、まさに未来。

こちらの呪文はSteampunk, City…など。
ちゃんとジャンル絵になっており、雰囲気も出ている。

今度はさらにJapan City, Samurai Girl,Steampunkとしてみた。
あまりスチパンっぽくないけど、背景の色味などはそれっぽいかも。

狙った画像を作り出せるのか

簡単にある程度それっぽい絵は作れるものの、やはり明確に意図を表現した絵にはならず、ちょっと触ったレベルではまだまだ「コレジャナイ」感がつきまとう。少ない試行回数でイメージに近いものを生成するのは難しく、基本的には呪文やその他のパラメータを設定かつ調整していきながら、ひたすら生成を繰り返してその中からイメージに近い「奇跡の一枚」が出るまでガチャのごとく回し続ける……という使い方になる。また人物をフォーカスしたものは手足の構造やパーツがかなりアレになりがちで、人間として見慣れている分違和感が強い。
それでも理想のイラストに近い要素を持つ単語=「呪文」の研究はユーザー間で進んでおり、「呪文 stable diffusion」などで検索すると「●●で写実的な風景になる」「△△と入れるとアニメ美少女っぽくなる」というような、どういった呪文で画像が生成されたのか公開しているところも多い。

多くの人が挑戦しているであろう萌え美少女の画像。
髪の毛が荒ぶっているが、何十枚か作った中でぱっと見一番かわいかったやつ。

できそうなことを考えた

意図通りの画像を好きなように……とはいかなくとも、簡単に画像生成できるのは魅力的。これで生成できる画像群を見て、「デジタルカードゲーム作りたい人とかめっちゃ使えそう」だとすぐに思った。肝となるゲームの遊び方と制御プログラムさえ用意できれば、プレイヤーがカードを認識する「絵」を画像生成AIで量産することで「それっぽい」見た目にすることができる。絵柄一枚一枚に細かく拘るのもいいが、それなりのクオリティのものが大量に必要なときこそ、画像生成AIが一番輝く場面だろうと思う。

「H.R.ギーガー風の眠れるドラゴン」という思いつきで出来上がった画像。
個人的に今回試した中で一番「っぽく」できてるかも。

あとは、書籍などの表紙イラストなどにも活用できそうだと思った。コンセプトアートのような壮大な風景画はかなり得意としている気がするので、セルフパブリッシングなど考えている場合などには使えそう。ただし、ライトノベルのような具体的なキャラクターがメインになるようなものは「まだ」厳しいように思う。
まあ、生成される画像の構図に関しても個別に読み込んだ画像に近いものを量産できる機能はすでにあるので、AIにキャラクターの外見情報を個別学習させるような方法が整備されれば、そのキャラクターという認識を崩すことなくいろいろな絵を描かせることは可能かもしれない。特に「Stable Diffusion」はオープンソースとなっているため、この文章を書いてから公開する間にも新機能の追加や、呪文や使い方の研究が進んでいる。
他にはYOUTUBEで動画など作っている人は、動画内容にもよるが背景イラストとして作成したものを使うのもありかと思った。ああいった動画を観ていると背景にイメージ画像などが使われる事が多いが、目的にあったフリー素材を探すのは非常に時間がかかると思われる。見つからないなら(画像生成AIを使って)自分で作っちゃえというのは、この先ありなんじゃないかと思う。

ざっと思いついたことを書いたが、呪文さえ大きく間違えなければ一応「要件は満たした(ように見える)」イラストを量産できるので、絵があればできることを考えるだけで夢が広がる。ちなみにこれらのサービスで作られた画像を利用して良いかという話だが、調べたところ「Stable Diffusion」で生成した画像は商用利用が可能、「Midjourney」も有料ライセンス登録すれば可能だそうである(めっちゃ稼いだ場合、法人プラン契約しなければいけない場合もあり)。

クリエイターの仕事を奪うか、という話

AIやロボットの技術が進歩すると必ず話題に上がるのが、「人間の仕事を奪うか」という問題だろう。この場合は絵描き、イラストレーターということになるのだろうが、個人的な考えとしては、多少減るかもしれないが結果的にうまく共存していくのではないかと思っている。
そう考える理由は、やはりどれだけ高いクオリティのものを量産できても、意図を汲んだものを狙って出力するには結局途方もない時間がかかるからだ。イメージを正確に他人に伝えることすら難しいのに、人間同士の共通認識や暗黙の了解も通じない機械に同じ内容を伝えるのは至難の技だと思う。それに、AIの描いた絵は「情報」(要素)はあるが「意図」(なぜそうなっているか)がない。だからぱっと見のクオリティと裏腹に、どこかで「コレジャナイ」「わかってない」と感じてしまうのだと思う。
それよりも、絵が描ける人が「コレジャナイけどそこそこ近い」画像に手を加えて感情や意図の乗った完成品に仕上げたり、生成されたものを足がかりに作業短縮できるような使い方など、AIをツールとして利用する確率の方が高いと思う(イラストレーターや漫画家、アニメーターなどの大半がPCで絵を描くのが主流になったように)。むしろ「絵は描けないけど、高いヒット率で注文通りの画像を即座に出す『呪文使い』」みたいな新しい仕事だって生まれるかもしれない。

まとめ

というわけで、記事を書いている時点で古くなりかけているような内容ですが、画像生成AIサービスは「パッと見凄いorそれっぽい絵が欲しかったり、あるいはそうした絵を大量に使いたい場合には非常に良いツールだと思います。
どんなものか興味がある方や、絵は描けないけどちょっと何かオリジナルな画像が欲しいみたいなことを考えている方は、すでに「NMKD Stable Diffusion GUI」以外にも色々な導入方法や新機能が追加されているようなので、いろいろ調べてからぜひ触ってみて欲しいです。