//=time() ?>
ということでここまで振り返って分かったのは、AIでの画像生成そのもので大きな改善があったポイントは①テキスト入力部分、②画風の学習と適用、③ネガティブプロンプト、ということになるんじゃないかなと思います。 NAIの良さや、SD2.x系での大幅バージョンアップ部分は①が大きい印象。
昨日はAI画像ガチャについて何か書こうと思ってまずは振り返りからだ!と思ってごちゃごちゃ書いているうちに最初何を書きたかったのか忘れちまったアカウントはこちらになります。なんだっけ?まあいいか。 ということでもうちょっとテキトーなことをリプに書き連ねます。 https://t.co/Ae9yC93bY9
ということで本日はここまでで! 振り返りだけで結構書いてしまいましたね…色々あった半年くらいでした。 明日、時間が取れれば続きを書きます。
stable diffusionの2.0、そのあとすぐに2.1が出たりしてちょっとばたばたした感もありましたが、以前のモデルよりも良くなった部分は大きくて正統進化だな、という感じになってました。ただ、まだWaif/trinart/novelAI等の派生モデルは1.xベースなんですよね。その辺がどうなるのかは気になってます。
stable diffusionの画像出力を使って動画を作ったりとか、音楽の波形の画像データを生成してそこから音楽を鳴らしたり(Riffusion)といった、単なる画像生成ではない応用の仕方も出てきたりしましたね。 11月はそういう普及期だったのかなと思ったり。
さて実は11月頃からwebuiの方の開発スピードはクールダウンの傾向にありました。それまでは毎日のように拡張スクリプトや機能改善があったんですが、週単位くらいになってました。stable diffusionの使われ方が落ち着いてきたのと、他の商用ツールの充実が影響しているのかなと個人的には思ったり。
11月くらいになるとstable diffusionやWaifuのバージョンアップがあったり、trinartの「とりんさま」「でりだ」モデルがオープンになったり、その他多種多様な追加学習モデルが登場するようになる。用途によって使い分けとか、モデルとモデルをミックスして自分好みのモデルをカスタムしたりとかも。
NovelAIのソースコードやモデルが流出するといったドタバタもあったりしたんですが、結果的にはNovelAIでの改善、特にHypernetworkは画風学習の主流になった。webuiにもNovelAIの成果は取り込まれたりしている(このへんは流出コードを元にしているので批判もある)。
Waifu/trinartだとかなり呪文を工夫してネガティブプロンプトも試行錯誤といった感じだったのが、NovelAIだと表現したい内容を素直に単語を並べるとそれっぽい美麗なイラスト絵が出るので、以後はNovelAIが主流になった。特に台湾/中国/韓国ではNovelAIでAI絵の人気が出た印象。
イラスト絵への努力とは別にoutpaintやinpaintといった応用的な使い方、画風を別に学習する方法(DreamBooth、Textual Inversionなど)、元絵をベースにimg2imgで仕上げていく方法などがどんどん実用レベルになっていく。このへんで利用ツールとしてはautomatic1111さんのwebuiが広まる。