ヤマネコ目線

大体独り言、たまに写真その他、レビュー等

画像生成AIとクリエイティビティ

 ただの戯言。生成AIに肯定的な立場なので肯定派絶対◯すマンはブラウザバックください。

 画像生成AIを触り始めてから結構な時間が経った。最初にStableDiffusionのデモ版で遊び始めたのが2022年8月あたり。今は自作PC上でAUTOMATIC1111を動かして遊んでいる。

2022年8月に生成させたもの
画像生成AI登場の受け止め方

 元は自分でも絵を描く趣味があった。と言っても絵を描くのが好きだと公言できるほどのものではなく、デジタルで色を塗るのが普通の人よりは出来る程度のものにしかならなかった。描きたいと熱望するものも無く*1、長時間ディスプレイを見て下書きをし、線画を清書し、色を塗る作業が疲れるので嫌になって来てしまった。

 単純に時間がかかり過ぎるのも苦痛な上に、それで今ひとつの絵しか作れないことにも苦痛を感じるようになってしまった。

 結局のところ、私は絵を描くのが好きだと言えなくなったのだ。昔、10歳もいかない頃のあの純粋に絵を描くことを楽しんでいた気持ちはどこへ行ってしまったのか。「上手くなければ意味がない」「他人に認められるクオリティでなければ意味がない」「人体や物の構造も完璧に描けないといけない」、そうした価値観によっていつの間にか私は自分で絵を描かなくなっていた。

 そこで登場した画像生成AIはみるみる発展し、私が描くよりもずっとクオリティの高い絵を数十秒、数秒で生成してのけて、私の折れかけの筆を完全に打ち砕いてしまった。それは同時に希望ともなり、また、これからのクリエイティビティについての疑問を投げかける存在となった。学習データの内容について無断で学習されたデータがあるなど問題もある訳だが、これまで自己表現の手段として絵という選択肢を持たなかった人々がそれを手にし、また、クリエイターにはより一層の独創性が求めれられるようになることは明らかだった。

 至極個人的なことを言えば、私が好きなキャラクターのイラストは極端に少ない/あっても何か違うことが多かったので生成AIの力を借りればまさに私が描きたかった、見たかったものが見られるのではという希望がある。

これからのクリエイティビティ

>>「長い、産業で」

  • 学習サンプルが無いようなユニークな内容ならAIに勝てる
  • 細部や整合性の面でもAIに勝てる
  • 鑑賞に堪える作品にはまだまだ人の手が必要

 画像生成AIの登場と同時に、これからイラストレーターに求められるクリエイティビティについて考えることが増えた。偉そうにそんな事を口出しできる立場でも無いが、かつてなりたいと思った者としてそれを考えずにはいられない。実際に画像生成AIを使ってみる上で感じた限界もある。その限界の先にあるものこそが、我々人間に残されたクリエイティビティになると考えている。

 画像生成AIの限界とは何か。画像生成AIは学習した内容しか出せない。追加学習すれば追加したものを出すことは出来るが、それはまだまだ素人が手軽に出来る段階には無い。それも学習できるだけのサンプルが無ければ学習すら出来ない。結局AI、人工知能だとか大げさなことを言ってはいるが、その実はサンプルからパターン化したものをランダムに発生させたノイズに合わせて再現しているに過ぎない。ちょっと変わったことをやろうとするとすぐに破綻する。

 たとえば「ビーチに立っている白いワンピースを着た女性」、を指定するとAIは難なくそういう画像を出してくる。しかし「飛行中のジャンボジェットの翼の上に片膝をついている剣を持った女性騎士」なんて指定をすると思ったような画像は出てこない。人間ならば時間はかかれど資料を集めてなんとか思ったような絵を出して来るであろうところ、画像生成AIにはそういう事が出来ない。人工知能とは言うが自己学習まで含めての完結は出来ない*2

 世にありふれているような構図・内容ではなくレアな構図・内容であれば学習がそもそも不可能なので、人間にまだ分があると言える。先に書いた内容を分割して生成→合成ということも不可能ではない訳だが、それには結局、人の手が必要になる。別々に生成した絵を違和感なく合成するのは難しい。

 逆に言えば世にありふれたような内容=人気のある題材とも言えるので、そういう題材を描きたい人にとっては画像生成AIは十分脅威と言える。ただ単に消費されるだけのコンテンツは画像生成AIが担っていくだろう。ポーズも難しいものがあるがControlNetを使えばどうとでもなる。そこにも更に限界を感じなくもないが解決策もあるので今回は割愛する。

 また、以前の記事でも触れたがAIは人工知能と言えど真の知能では無い。物事を”理解”している訳ではない。それゆえの限界もある。たとえば「階段を描いて」と言われると人間なら階段の上と下、段差があるように描く。しかし画像生成AIでは平らな地面に階段を描く場合がある。AIは階段がどのような光景かを学習していても、階段という構造がなぜ存在するのかが”理解”出来ていない。

 同様に、背景そのものが人物を堺にして破綻することも多い。人間は人物の奥に背景があればその背景と人物は別、背景は背景で歪み無く繋がっているものだと”理解”できる。AIにはそれができない。AIにとっては人物も背景も1枚の画像の上、同じ階層、次元、レイヤーにあるものであって、人物は背景を区切る境界たり得るのである。これにも背景と人物を分けて生成し、後で合成するという手はあるのだが。

 物事の構造、存在理由などを含めて理解した上で、それを場面に反映させるにはまだまだ時間がかかるだろう。そこにもまだ人間に分がある。AIと同レベルで絵を描ける人は描き足し・修正しても良い。それはそれで強みになる。

 ベースモデルによってはいくつか生成させている内に「あれ?」と思うことも無くは無い。似たような構図やポーズが多いのだ。本当はもっとバリエーションが欲しいのに、学習元に似たような構図が多いのか無難なものしか出ない場合がある。プロンプト(詠唱)でポーズ指定しても無視される、ControlNetのOpenPoseでポーズ変更を試みても余計なものが出るだけでポーズが変わらない/変わりづらい等、なかなか思ったような画像を出すことは難しい。ガチャと言われるのもよく分かる。

 特定キャラを出すための拡張機能LoRAも面白いのは面白いが、LoRAと呼ばれる学習データの出来に大きく左右される。クオリティが安定しない。人間なら出来ることが思ったよりも出来ないという事も多い。その辺はやはり同レベルで手動修正が出来る人間に分がある。特に服装の細かい模様なんかは苦手で、優秀なLoRAでもカッターシャツのボタンが無かったり小さかったりはよく見かける。AIにはシャツにボタンが必要な理由が”理解”出来ない。

 加えて、もともとノイズをもとに生成するがために望まぬノイズが画像に残ったりもする。特に顔によくわからないホクロが出来たり、中世の村落を描いたはずが空に飛行機雲が現れたり、顔と髪の境目が曖昧になったり。

 結局は1つの作品として仕上げるためにも人の手が必要になる。場合によっては普通に描くよりも手がかかる場合もあるかも知れない。

余談:自分のPCで生成させた画像

*LoRA使用、Photoshopで微修正・メタデータ削除済

サンプル1

 小さい画像をいくつか生成させて良さそうなものをアップスケールしたものでほぼ生成させたまま(飛行機雲やノイズだけ修正)。手も修正していない。筆、折っていいっスか?いやもう折れてる(というか粉々)なのだけども。

 細かい所を見ればケチのつけようはあるが、世にあふれるR-18画像のように消費されるだけのイラストには十二分のクオリティがあるのがお分かりいただけるだろう。

 一方でどうしても気になる所はあると言えばある。シャツのボタンは下の方にしか無いし境界が曖昧、袖のボタンは黒と統一感も無い。手前の右側にポツンとある白い花もよく分からん上に構造があいまい。バスケットには背景には無い色の花が入っており構造も潰れがち。黄色い花も雑過ぎる。髪を束ねているリボンも見えている範囲や端の処理が怪しい。

サンプル2

 横長ver。サンプル1と同じような生成条件。画面を横長にした場合。これも細部を見るとケチのつけようはある。まず座っているキャラクターの背中側に椅子の背もたれらしき構造が無い。よく分からん手すりのようなものが描かれているだけ。もしや空気椅子なのか・・・?左右にある椅子も左右で構造が違って見える。そもそも「holding a cup」と指定したのがcupを持っておらずよく分からん紙を手にしている。背景のヤシの木?もそれっぽいが潰れがち。

 もっとも、これらは作品として鑑賞する上で気にするべきものであって、何をとは言うまいが見たい場所が見たいように描けてさえいれば良いものはこれでも十分なのだ。何なら細かい点に目を瞑れば「これだけの指示でこれだけのものを出して来るのか」と感心してしまう事も多い。

 画像生成AIと言えど所詮は道具。いかに上手く使いこなすかが重要。

*1:あるけども自分の画力では追いつけない、追いつけるイメージすら出来ない

*2:学習という語1つにしてもAI研究における用語と日常的な用語では本質的な違いがある