//=time() ?>
768x768,2000[step]追加学習後。
もりくぼはもうちょっと頑張ってほしい・・・(もりくぼに関してはTwitterに載せるレベルじゃないけど載せちゃった)。
768x768,2000[step]追加学習後。顔がだぶらないわけではないがかなり確率は低い(10%以下)。クオリティ的な打率(Twitterに乗せているレベルのもの)も15%くらいはあるかな?
768x768,2000[step]追加学習後。text_encoderは相変わらず学習している(そろそろ止めてもよい?)。学習元はCLIPの最終層から2番目使っているんだけど今回の学習では普通に最終層を使ってしまった・・・(設定ミス)。生成も普通に最終層。
768x768,2000[step]追加学習後。普通によくなっている・・・。やっぱりファインチューニングの時は小さい画像である程度スタイル学習⇒高解像度画像で高解像度の構図を学習、みたいなのが結構有効なんかな?真面目にやるならSDみたいに256x256から始めるのと学習効率もっといいんだろうな。