キミコエ画像生成AI 2025年版

本記事はキミコエアドベントカレンダーの22日目の記事です。

昨今、生成AI技術は、世間の評価はともあれ、急速に進化しています。

最新のニュースでも、日本政府としてもAIを「質の高いデータ」「信頼性」を重視しつつ推進していく方針が示されるなど、社会的にも大きな注目を集めています。

私の立場としても、生成AI技術は非常に興味深い研究対象であり、その足がかりとしてキミコエの画像生成に関して、これまで継続的に取り組んできました。

今回は、キミコエの主要キャラクターを出し分けることにチャレンジしてみました。

キャラ狙い撃ちLoRA学習

今年になって行った試みとしては、「全フレーム学習」からはやや後退し、キャラにフォーカスした学習に徹底しました。

もっと詳しく言うと

キミコエの約1500カットを8フレームずつ取り出した約12000フレーム（画像）を抽出
画像に対するキャプションファイルとして、画像にキャラがいたら「kimikoemovie, tatsunokuchikaede, yukiainagisa」のようなタグを付与、いなかったら「kimikoemovie」のみを付与
これらの画像とキャプションを使ってLoRA学習を実施

今までの学習と根本的に違うのは、「tagger」を使った自動タグ付けを行わなかったことです。

キミコエの1518カットを8フレームずつ取り出した12144フレームを、キャラのタグ付けだけしてLoRA学習。

キャラLoRAとしてはかなりよさげなものができたかもしれない。

ただやっぱり乙葉とか登場頻度の低いキャラはいまいち特徴を掴みきれてないかも。#AIart #stablediffusion pic.twitter.com/aJHaTNOgWn
— 岩淵碧音物智 (@yuki_i0913) August 11, 2025

この方法により、画像生成の際にも、「yukiainagisa, 1girl, solo, portrait, upper body, smiling」のようなプロンプトで、特定キャラを狙い撃ちしやすくなりました。

キャラクター別生成例

ComfyUI上で、Stable Diffusion 1.5を使い、以下のようなプロンプトを使って生成しています。品質を上げるためのネガティブプロンプトも併用しています。

yukiainagisa, 1girl, solo, kimikoe, upper body, smiling のようなプロンプトで、キャラ名だけ入れ替えて生成します。

行合なぎさ

行合なぎさの生成画像

ピンク色の服が特徴的な行合なぎさ。青空、夕日の背景もあり。安定して特徴を捉えています。

龍ノ口かえで

龍ノ口かえでの生成画像

バイト先衣装が特徴的な龍ノ口かえで。口がちょっと無理に笑顔にしすぎかも。こちらも安定して特徴を捉えています。

土橋雫

土橋雫の生成画像

ニッコニコな表情多めの土橋雫。かわいいが際立っています。特徴的な髪型も捉えられていて、なかなか良い感じです。メガネがたまに出ない、ツインテールが弱めなのが課題かも。

浜須賀夕

浜須賀夕の生成画像

優しさがすごく出てる浜須賀夕。ちょっと前髪が原作と違う感じがしますが、全体的には良い感じに特徴を捉えています。

中原あやめ

中原あやめの生成画像

クールビューティーな中原あやめ。特徴的な髪型も捉えられていて、なかなか良い感じです。なぜか浴衣でもない和服・ネクタイスタイルが多いのが謎。

琵琶小路乙葉

琵琶小路乙葉の生成画像

ニッコニコ率が高い琵琶小路乙葉。登場頻度が低いためか、特徴を捉えきれていない感じがあります。真正面の画像が多く、髪型もめちゃくちゃウェーブがかかっているのが多いです。

矢沢紫音

矢沢紫音の生成画像

笑顔指定をしてもクールな目つきの矢沢紫音。特徴的な髪型も捉えられていて、なかなか良い感じです。表情がもう少しバリエーションあると良さそう。

矢沢朱音

矢沢朱音の生成画像

やはり大人びた特徴が出る矢沢朱音。ロングヘアも捉えられていて、なかなか良い感じです。ただ、登場頻度が低いためか、特徴を捉えきれていない感じがあります。

Stability Matrixの活用

今回の学習では、Stability Matrixというツールを活用しました。
Stable Diffusion WebUIの拡張版だったり、ComfyUIだったりの各種ローカル用の画像生成AIシステムを、モデルデータ等を共有しながら使えるツールです。

今回の環境整理で、より高度な画像生成ができるComfyUIを使えるようになったのが大きな進展でした。

Stable Diffusionのバージョン別学習

今まではずっと、安定しているバージョンの「Stable Diffusion 1.5」での学習を行なっていましたが、高機能かつ汎用性の高い Stable Diffusion XL (SDXL) や、現時点で最新の Stable Diffusion 3.5 (SD3.5) 等での学習も試みています。

ただ、試行錯誤して、出力自体はできるようになりましたが、なんかうまく特徴を捉えきれていない感じ（そもそも全く成功していない？）があります。

久々にStable Diffusionを触るついでに、ソフトウェア周りも改革したところ、ついにSDXLを出力できるようになりました。
画質はいいけれど、学習が足りてなくて近からず遠からず。いや、まだ近からずだなー。#stablediffusion #AIart pic.twitter.com/drJoqzCoHI
— 岩淵碧音物智 (@yuki_i0913) August 2, 2025

ChatGPTに改善点を聞いて学習し直したところ、かなりなぎさに近づいた！！
ただ、ベースモデルによって見栄えがだいぶ偏るなー。

ベースモデル (左から) :
DreamShaper XL (LoRA strength: 0.5)
Anything XL (LoRA strength: 1.2)
LizMix (LoRA strength: 1.2)#AIart #stablediffusion pic.twitter.com/FeTROyTvKi
— 岩淵碧音物智 (@yuki_i0913) August 7, 2025

SDXLでのLoRA学習もマスターしてない中、無謀にもSD3.5で学習を試みたところ、骨を折りつつも書き出し成功！
書き出し途中のぼんやりしたのが一番雰囲気出るんだけど、生成されるのはちょっと繊細すぎる印象。
まあ出だしとしては好調かな。#AIart #stablediffusion pic.twitter.com/blhwA4in7S
— 岩淵碧音物智 (@yuki_i0913) August 8, 2025

今後の展望

2025年はNano BananaやSora 2など、世間を賑わせた画像生成AIサービスも登場しました。
これらのサービスはまだあまり試せていませんが、もうすでに「アニメそのまんま」の模倣ができるレベルに達しているようです。

ただ、やはり「アニメそのまんま」を生成するという方向性は（用途にもよるけれど）なんか違うとも思うので、私は特に「自分のスタイルでキャラクターを描く」ことを目指していきたいと思います。