//=time() ?>
AIが学習した結果である「モデル」ですが、これは数万次元(トークン1つ1つがそれぞれ1次元)の概念空間なわけで。呪文として入力されたトークンをその概念空間の重みづけとして、出力をコントロールするわけですが、ネガティブプロンプトはその概念空間の指定された次元をマスクする感じになる。
③のネガティブプロンプトですが、SD2.xではここが改善されているという話があったりします。なので、ネガティブプロンプトは小手先のテクニックというよりは、むしろモデルを使用するうえでの根本的な何か、ということなんだろうと個人的には考えています。
SD2.x系は結構イラスト絵も学習しているんですが、画風についてはDreamBoothで頑張るという考え方なんだと思います。なのでSD2.xにイラストを追加学習させるのは本流ではなくて、多種多様なHypernetworkがSD2.x系向けに共有されて、みんな好きにそれを使う感じになっていくのかもな、とか。
なのでベースのモデルの方にイラストを追加学習させる方向性はたぶん今後あまり発展しなくて、ベースのモデルからの写真っぽい出力を、別に学習しておいた画風で欲しい絵の方向性に持っていくというスタイルがAI絵処理の主流になると思います。NAIは元々そうですし、nijijourneyも恐らくそっち。
この点は考えてみれば当たり前なんですが、Waifuやtrinartのようにイラストをイラストとして学習すると写真だけを学習したときよりも物体としての表現は崩れることになります。人類がイラスト練習するときも同じで、実物を模写するのとイラストを模写するのとだと、実物を模写する方が画力は高くなる。
②の画風の学習についてはNAIのhypernetworkがかなり効率的に学習できていて、出力画像を制御するのによい、という共通認識ができている気がします。表現力を豊かにする方向性と、画風を安定させるという方向性は1つのモデルの中では本質的に矛盾するんですが、そこを画風を別に学習することで解決。
ということで①のテキスト入力の部分は今後もどんどん改善されることは間違いなくて、そっちには翻訳だとか文章の音声読み上げだとか、そっち系の技術の応用が有効だったりするんじゃないかと個人的には思ったり。なので自然言語解析系のエンジニアさんの参入が待たれるところです。
初期の頃「AIは文章的なつながりも考慮するのでは?」という説もあったりしたんですけど少なくともSD系はそんなことはなくって、単に文章をぶつ切りのトークンにして、モデルの概念空間に重みづけしているだけなんだろうなとか。単語と単語の位置関係は相互に影響する度合として反映されているっぽい。
いま主流の呪文は絵に出したい要素のフレーズを個々に重みづけするスタイルで、(((cleavage breasts))) ((clear skin))といった感じに並べていくんですよね。明示的に重みづけしないと元の実装の重みづけ傾斜に影響を受けて思ったようにならないので、結果的にそういうスタイルが定着したのかなとか。
というかそもそも最初のSD1.x系って、①の部分は「仮だけどとりあえず動くように実装してみた」って感じだったのかな、とか思わないでもない。75トークンの制限とか、先頭の単語の重みづけが大きくて後ろになるほど軽くなる傾斜の付け方とか、実用した時にどうなるとかあまり考えて無さそうな印象。