ここ一週間くらい世間がずっと面白がってきた、
「AIに絵を描かせる」あそび、
まとめが来たようだ。
魔術として理解するお絵描きAI講座
https://note.com/fladdict/n/n0f0be20e3e23
最初から分かっていたことではあるが、
このAIはネットに転がるテキストと画像のペアを学習ソースにしていて、
テキストの注文に対してマッチしやすい絵をジェネレートするものである。
つまり、
ざっくりいうと、Google画像検索と触り方は変わらない。
僕らは「いまここにないもの」を想像するのが仕事なのだが、
自分の中のビジョンを外に出すには、
絵を描いたり言葉で説明する以外にない。
だけど見る人によって、
想像力のレベルが全く異なるため、
「イメージと違った」などとして、
途中でトラブルが起こることがとてもよくある。
この厄介ごとを避けるため、
昨今では写真イメージを添付することが、
割と当たり前になってきた。
ただし、
ハッタリをかまして仕事を得たいがために、
予算を度外視したいい写真を添付したり、
写真が気に入ってしまったので、
この通りにならないと騙されたと怒るクライアントもいるため、
事前に写真を見せることは、
問題をはらむこともある。
まあそれは別項に譲るとして、
とにかく我々は写真でイメージを構成しなければならない。
で、
当然なのだが、
「まだこの世にないもの」を我々はイメージしているから、
ジャストのその写真はまだこの世に存在しない。
だから我々は、「似た写真」をたくさん集めたり、
似た写真を複数合成したりして、
「イメージ」を作ることが多い。
さて、
ここでGoogle画像検索が大活躍するわけだ。
先日の例で説明しようか。
今PVの仕事をしてるのだが、
「踊りながら千本鳥居をひたすら歩く」
というワンカットPVはどうだろう、
と、赤い千本鳥居の前で踊る、
赤いドレスの女のイメージがほしくなった。
まあ絵を描けばいいんだけど、
千本鳥居の感じってなかなか絵にできない。
漫画っぽくなってしまう。
で、そういう画像を探して、
最悪合成しようかな、なんて思っていた。
「千本鳥居」で画像検索すると、
ほぼほぼ京都の伏見稲荷が引っかかる。
観光写真や、じゃらんの案内みたいな写真がほとんど。
「千本鳥居 踊る」「千本鳥居の前で踊ってみた」
なんかで検索しても、
踊る写真はほぼなくて、
まだ伏見稲荷で埋め尽くされる。
ここで、
「千本鳥居 -伏見 踊る」
のように、伏見稲荷を減算すると、
コスプレでポーズを取り、千本鳥居の前で撮っているような写真が、
引っかかりはじめる。
「千本鳥居 -伏見 ダンス 赤いドレス」
では、赤い衣装で踊っている写真は皆無であった。
うーん、誰かやってそうなもんなのになあ。
まあいいや、じゃ手前の人物は別に探して合成するとして、
背景の千本鳥居だけええやつ探したろ、と、
「千本鳥居 フォトジェニック」
なんかで検索すると、いい感じの千本鳥居の写真
(そして合成しやすい高画質)が引っかかる。
こうして適宜ネットから画像を落とし、
「赤いドレスの女 踊る -フラメンコ」
などで出てきた女と合成すれば、
おおむねイメージ画像はできあがる。
さて、
midjourneyは、
ほとんどこれと同じことをしているわけだ。
僕は被写体と背景を別々に合成しようと考えたが、
これを一枚絵でジェネレートするだけの話だ。
単なるGoogle画像検索では存在しない写真だとしても、
「千本鳥居の前で踊る赤いドレスの女 -伏見」
あたりで、
各要素をうまく繋ぎ合わせてジェネレートしてくれることが、
予想されるわけだね。
AIの「学習」とは、
つまりは言葉と画像のペアの部分だ。
「背景に鳥居があり、手前に踊る女がいて、
その女は赤いドレスを着ていて、
全体に赤の強調された美しい絵になる」
という、絵自体の構造を学んでいるわけではない。
だから、
midjourneyに描かせる絵は、
Google画像検索で欲しい絵を探すことと、
ほぼ同義だなと思ったわけ。
これは検索のコツでもあるんだけど、
欲しいものがどういう言葉で紹介されていて、
どういう言葉に紛れてしまわないか、
を考えつく必要がある。
これも昔書いたかもしれないが、
「地球を周回する宇宙ステーションの中」という設定で、
撮影スタジオを探していたことがある。
「宇宙ステーション 撮影スタジオ」で検索しても、
そんな特殊なスタジオは存在しないので、
出てくるわけがない。
そこで、
「スペースオペラ 撮影スタジオ」とかで検索すると、
宇宙船の中とか、SFの部屋みたいな、
「コスプレ用スタジオ」が引っかかることがわかる。
ついでにそういう風のを「スペーシー」というジャンルだとしる。
そこで、
「スペーシー コスプレ スタジオ」でググると、
沢山のスタジオが出てくる。
悪くないのでキープしておく。
しかしこれはどちらかというとSF的であり、
もう少し今風のリアル系宇宙ステーションである必要があった。
で、考えるわけだ。
「何に似てるだろう?」と。
思いついたのが、
「飛行機の中 セット 撮影スタジオ」。
飛行機の中のセットを持ってるスタジオがあるのは、
聞いたことがある。
フライトシーン、ハイジャック、
安全講習ビデオなんかに使われるやつ。
で、客席スタジオがあるなら、
操縦席もそこに置いてないかなと思ったんだよね。
そしたらビンゴ。神奈川県に、
ジャンボの操縦席の撮影スタジオがあった。
窓を映すとジャンボの操縦席に見えるけど、
操作パネルや壁の感じ、天井の感じは、
宇宙ステーションに近くない?
って感じでとてもよかった。
こういう風にして、
「どういう言葉で検索すれば、
欲しいものが出てくるのか?」
「どういう言葉に紛れずに、
欲しいものだけを抽出するか?」は、
調べ物の基本である。
ノイズにまみれない、
純粋なものを取り出せれば勝ちだ。
さて、midjourneyだ。
この「詠唱呪文」のコツが、
ほぼこれと同じだなと思ったわけ。
AIの学習は何千ものベクトルの中にあり、
それらをうまく方向づけないと、
打ち消し合う、
というのはわかりやすい説明であった。
で、突然脚本論に戻るのだが、
つまりは創作とは、
この、打ち消し合うベクトルのカオスの中から、
ひとつだけ尖って突出すること、
だと定義できないだろうか?
ほうっておけばカオスに飲み込まれる、
打ち消し合うベクトルから逃れて、
ある方向にベクトルを伸ばして、
他から区別されるほどの突出をすること。
これはエントロピーの減少そのものではなかろうか。
画像検索によるイメージの添付は、
僕はとても危険だと思っていて、
それって、
「過去にある似たものを参照することで、
過去にある似たものをつくらないといけなくなる」
からだ。
あくまでこれは参考資料でこれを超えるものをつくるのだ、
と言ったとしても、
「すでに見た資料が気に入ったので、
これに近づけてください」と言われる例は、
周囲で沢山見てきた。
あほか、それで新しいものがつくれるのかよ、
と僕は鼻で笑う。
画像検索はすなわち、過去のカオスにすぎない。
そこから突出して、
まだないものをつくることが、
創作である。
たかがmidjourney、Google画像検索に追いつかれてるようでは、
創作をしてるとは言えないわけだね。
2022年08月14日
この記事へのコメント
コメントを書く
この記事へのトラックバック