PR

AIに画像を認識させるテクニック ③特徴

AI
PR

画像生成AIの話なのだ

①と②では
ハッキリと描くと認識しやすい
と言う話をしたけども

それとは別に どういうを何だと認識するか

そこにもAIの認識の境界があるのだ。

僕がやった実験から説明していく。

PR

猫と人の認識の境界

ChatGPT (2025) の実験結果

実験の主な対象はStable Diffusion。

でもまずはChatGPTだとどうなったか。参考情報。

2025年に画像生成機能との統合によって文脈理解力が著しく向上したChatGPT…。

キモすぎるのだ!
僕のサイトのポリシー違反だぞ!
お前!

Stable Diffusion (2024) の実験結果

という事でStable Diffusionでも同様の実験を行ったのだ。
プロンプトにはgirlだけ入れてます。
※チェックポイントやパラメーターによって結果は異なります。

左足が見えなくなった分だけハッキリと俯瞰視点である情報を描く

動画 Hailuo AI

気に入った画像は動画化するのを恒例にしていこうと思います。

わかった事

この実験で分かった一番大事な事は、
Stable Diffusionは基本的に
尖った耳は猫であると認識するよりも強く、
ふくらんだ胸は人間であると認識しているという事だ。

『ふくらんだ胸 ≒ 人間 』  『尖った耳 ≒ 猫』
(Stable Diffusion)

ChatGPTは
『尖った耳 ≒ 動物』 > 『ふくらんだ胸 ≒ 人間 』

そして、ある一つの物体が何であるかを判断する際に、
その物体ならではの特徴が強く表れていると、その物体だと認識するという仮説がたてられた。
というか人間の脳と同じように考えるなら、そういう風に判断しているはずなのだ。

だから、AIに画像を認識させる際には、
AIがそこを特徴だと覚えたであろうその物体ならではの特徴を、
AIが一つのオブジェクトだと認識するはずの範囲の中に描いてやればいいのだ。

車を認識させる

AIが車を車だと認識する一番の特徴はなんでしょうか?
答えを先に言わせてもらうと、当然、『タイヤ』です。

だから車っぽい形でタイヤを描けば、車だと認識させやすいです。

しかし、この車は横向きで描いたつもりなのだ。
Stable Diffusionは正面だと認識してくるのだ。

次回はこの車の絵自体は変えずに、横向きだと認識させます。

コメント

タイトルとURLをコピーしました