PR

AIに画像を認識させるテクニック ④状況による説明 (背景とシチュエーション)

AI
PR

僕が描いたこの絵だけども、
僕は横向きの車のつもりで描いたのだ。

だけどStable Diffusionには正面の車に見えるらしいのだ。

横向きの車だとハッキリとわかるように左右の対称性を下げて
タイヤの円形がもっと見えるようにしたら

でもムカつくのだ。

僕が横向きで描いたつもりの最初の車も、
横向きだと認識させてやるのだ。

PR

絵による状況説明によってAIの認識を変える

①車線を描いてみたらどうか

②車線+絶対横向きの車を描いてみたらどうか

周囲の状況説明によって主役の絵を描き変える事なく、
AIの画像の認識を変える事に成功した。

そして、①のAIが生成した画像を見て欲しいのだが、タイヤが消えているのだ。
ここで

車だと認識するのにはタイヤを特徴として認識しているにもかかわらず、
 生成結果には描かない事ができる。


という重要な事に気づいたのだ。

きっと、横向きの車を見せる事は「car」というプロンプトを入力しているのとほぼ同じなのだ。

という事は…
前回、タイヤを描けない俯瞰視点の車を、AIに車と認識させる事は難しい事がわかったが…

仮説

タイヤの見える横向きの車を描き、周囲の状況説明によって、俯瞰視点であるという強力な付加情報のある絵を描けば、タイヤを見てAIは車が描いてあると認識したにもかかわらず、タイヤの描いてない俯瞰視点の車を描かせる事ができるのではないか?

※プロンプトで指定する際も、より強い指定()とか(****:3)とかで強力な指定をしてやる事で弱い方の プロンプトを無視させる事ができるのと同様。

車を俯瞰視点に描きかえる実験 (2024)

①まず、強力な俯瞰視点情報のある絵をつくる

実はこれが結構難しかった。なぜなら、AIは次のバイアスを持っているからなのだ。

①地面は画像の下側。上側が空。
②ビルの隙間から見えるのは空。

だから、まずはAIのそのバイアスに勝つのに十分な情報の入った絵を描かなくてはいけなかったのだ。

入力プロンプト:crossroad

crossroadとだけ入力して実験を始めた

もっと強いパース情報をつけた

そして次に 特に意味はないがAIの再描画権をあげて見た

もっと強い情報が必要だという事がわかった。
そう。より強い俯瞰視点であるという情報が。

という事で ビルの上から 地面を見下ろしている人間を描いてみた。

人間の方向の認識をAIとの間で見解を一致させる必要がある

これだけ強力な俯瞰視点の情報があればうまく行くと言う確信と供に
横向きでタイヤの見える車を追加した

しかし…

結論

理論的には可能なはず…
だけど、この実験結果は背景として描かれた交差点の模様の可能性が高いと思う。

交差点という状況設定がよくなかったのだ。
なぜなら、道路には車があって当たり前なので、車を認識しなくても、交差点には車が描かれてしまう事があるからなのだ。

僕の最初の仮説を証明するためには、通常車が描かれない場所の絵で同様の事をしなくてはいけないが、そうするとすごく難しくなってしまって、理論的には可能だけども、実用性はあまりないテクニックになってしまうのだ。

だけど、人の向きなどの車以外のモノを、
AIに描いてもらう際に、どのように描いて欲しいかをAIに伝える際に、
応用の効く考え方なので是非、頭に置いておいて欲しい考え方なのだ。

無駄に動画にして見た画像

コメント

タイトルとURLをコピーしました