ヤマネコ目線

大体独り言、たまに写真その他、レビュー等

絵師はまだ失業しない

 書き散らし。Stable-Diffusionでしばらく遊んでみた感想。最近、自分では何1つ生み出さない生産性の欠片もない奴らが「AIでイラストレーター失職」などと騒いでいて不愉快なので書く。

manuller416.hatenablog.com

 私も絵を描く者の端くれなのでまあまあ楽しく遊んでいるが、一方で不満が無くはないし、まだまだ絵師が失業するレベルの出来ではないなと感じた。風景画が苦手なのでAI以上の風景を描けるかと言われれば苦しいが、まあ批評くらいは出来るので。

AIとは言うが要は既存要素の組み合わせ

 AI(Artificial Intelligence, 人工知能)と書いてはみたがその中でも技術的なレベル、段階がある。まだまだそのレベルは人間には追いついていない。かなり研究が進んできてはいるが、まだ絵師が失業するレベルではない。

 今回、遊んでみたStable-Diffusionの強みは、学習したモデルの要素をコンピュータが高いレベルで組み合わせて一見してそれらしいレベルの画像を生成できる事にある。それも人間が考えるよりも高いレベルの再現性。たとえば何かの絵で有名画家の画風を再現しようとした時、人間がやるよりも高いレベルの再現性が得られる。

 しかし、それは特定要素の組み合わせでしかないとも言える。これまで他ならぬ人間によって描かれて来た、あるいは撮影されてきた膨大な数の絵や写真をもとにそれらを特徴づけて学習し、無限大の引き出しを作り、命令に応じて引き出しからそれらの要素を引っ張り出して組み合わせて提供する。それをいかにうまく組み合わせるかというのは難しいし、それを計算ずくでやってのける技術は素晴らしくはあるが、裏を返せばそれは人類が作って来たピースでブロック遊びをしているに過ぎない。

ベクシンスキー風に描かせた日本
1つ1つの要素を完成させる力

 Stable-Diffusion(以下、S-Dとする)を使ってみた感じ、要素をうまく組み合わせるのは上手だなと思う一方、足りないと思ったのがこれ。

 これはあくまで例えだが、「階段」と言えば我々ニンゲンは「段差を登りやすいようにつなぐ構造」だと認識している。逆に言えば絵の中で階段を描く場合、そこには「段差」もセットで存在しなくてはならないし、きちんと高低差があってそこを階段が繋いでいるように見えるよう、描かなければならない。

 しかしS-Dが階段を持ち出して来る場合、時に「階段」という要素だけ持ち出して「段差」を持ち出すことをしない場合がある。いつもいつもな訳ではないが時にそうした事が起きる。S-Dは単純に階段を1つのパーツとしか見ておらず、そこにどんな意味があるのかは理解していないからそういう事が起きる。これは別に階段に限った話ではなく、他のどんな要素でも起こり得る。

いい感じだが地形としては何か変、の1例

 他にも、宗教画風の絵を生成させた場合に登場人物が複数おり、それは良いのだが顔が潰れていたり体の構造が変だったりすることもある。要は「人間」と「顔の構造」がセットになっていない。なので人間を描く時、我々が当たり前のように「顔もちゃんと描いておかないと」という認識がS-Dには出来ない。上の画像のような地形としての整合性も同じ。構図が何か変と感じることは度々ある。それはそれで幻想的で良い時もあるが、リアル寄りの絵の場合は違和感が強く出過ぎる。

 特定の要素を持ち出す時、それに付随して当然の要素を一緒に持ち出すことでその要素を完成させるという事がまだ出来ていない以上、絵を作品として完成させる力は足りていないと言わざるを得ないし、生成された絵を作品として完成させるためにはまだまだ生身のアーティストが必要であると感じる。

これからのアーティスト

 絵を嗜む1アマチュアとして感じるのは、AIは敵でも何でもなく(今のところは)想像力を補完するための道具の域を出ないと言うこと。ただそれっぽい絵が欲しいだけ、というのであればS-Dから出て来た絵をそのまま使っても良いのだろうが、それだけでは作品としての完成度は低い。それよりは生成された絵を参考にブラッシュアップ、あるいは描き直しをして様々な作品を作っていくという楽しみが生まれている。特に風景画などは私の貧弱な想像力を補ってくれそうでかなり助かる。

 写真についてはリアル寄りな画風になる反面、リアル過ぎて物体の不整合性が目立つので、あえてそういったのを狙うのでもなければそもそもS-Dで生成させるメリットが薄い。完全にフリーな人物・動物の写真素材が欲しいとかならアリだろうし、特定の動物をかけあわせたかのような写真風の画像を作ったりする人もいる。君のような勘のいいガキは嫌いだよ

カピバラとネコの合成生物

 「人工知能が描いた絵」と本当に言えるのは、様々な要素を学習したAIがカメラを通して世界中の風景を見てAI自身がそこにある要素1つ1つの意味を理解し、そこから何をどう描きたいか、どのようなテーマにどのような要素が適切と言えるのかを思考し、人工知能としての考えも含めた画風で表現した絵なのだろう。ひょっとしたらそれは我々の理解の範疇を超えるかも知れない。そうなった時、アーティストは職を失うだろうか。人間に理解できない絵と、人間に理解できる程度の絵、どちらにも価値があると私は思う。

 逆に誰もが簡単にそれっぽい絵を生成できる、というのが強みでもある訳だが、果たしてそれは命令者(生成のための指示語を入力した者)の作品と言えるのだろうか。学習元にされる(=画風をパクられる)問題、フェイク画像が粗製乱造される問題、これからその辺り、大いにモメるだろうな・・・。