Няшка в подтяжках: #как_это_сделано #нейроарт #LupinIII Я уже грозилась ранее, что расскажу, как я что-нибудь делаю. В

#как_это_сделано #нейроарт #LupinIII

Я уже грозилась ранее, что расскажу, как я что-нибудь делаю. Вот час настал :)

И конечно же я начну с простого варианта милого Гоэмона.

Если вы сейчас подумали что-то вроде "Фу, очередная нейронка, что там может быть сложного?", то вы упускаете один очень важный момент. Даже если отставить в сторону тот момент, что заставить нейронку сгенерировать именно то, что тебе надо, - уже сложно, то остаётся ещё одна большая проблема. В отличие от Поттера, Рикмана или даже Тартальи, про которых знают практически все нейронки, Гоэмон - не самый популярный персонаж. Вероятность того, что арты с ним попали в исходное множество для обучения и даже были правильно размечены, стремится к нулю. А это значит, что нельзя взять произвольную нейронку и получить от неё подходящую картинку. Я пробовала, чаще всего получается или рандомный аниме-мальчик, или особо преисполнившиеся нейронки выдают подобие кабуки театра про первого Ишикаву Гоэмона (есть в японском фольклоре такой местный Робин Гуд).

Ещё есть вариант пытаться самим запросом задать внешность, но это не путь истинных самураев. Истинные самураи обучают нейронки сами.

Любая генерация нейросетью - это работа с весами. Немного эвристики и рандома - и вот сетка наращивает поверх исходного шума связанные объёмы. Как и где их цеплять друг к другу определяется её "насмотренностью" на референсы, т.е. исходное обучающее множество. От этого зависит очень многое: и стиль, и то, какие запросы она вообще в состоянии понять (т.е. какие из ключевых слов есть в её словаре).

То, что Гоэмона в исходном множестве скорее всего нет, мы с вами уже определили. Дальше есть два ~~стула~~ пути: собрать новую модель, которая будет про него знать (но это долго, сложно, много весит и пока мне не интересно), или приготовить для существующей дополнение. Один из видов таких дополнений называется Lora (Low-Rank Adaptation) - это набор уточняющих факторов, которые говорят алгоритму, какой параметр нужно поднять (или опустить) для генерации. Цвет глаз, тип линий, стиль одежды, цветовая гамма - лорами можно корректировать практически всё. Достаточно собрать подходящие картинки-исходники, разметить их ключевыми словами, чтобы получился нормальный (и желательно непротиворечивый :)) словарь, а потом ждать, когда система закончит декомпозицию и свяжет новые образы с новыми словами.

Так как я делала лору для себя и локальной версии Stable Diffusion, то у неё был огромный допуск на погрешности и кривые генерации: я всегда могу условно бесплатно (за цену электричества в розетке :)) нагенерировать тысячу вариантов, а потом отфотошопить самый успешный. Посторонним людям такой трэш не показывают :) В итоге даже самый успешный вариант не был успешным в прямом смысле этого слова:

"Сомнительно, но окэй".

Так как комп у меня слабый, то генерирую я в основном по принципу: вначале много маленьких пробников - потом повышаем разрешение и размер самым успешным. В этом случае на некоторых моделях (например, на той анимешной, что я использовала) могут появляться дополнительные артефакты: засветы там, где значение весов скакнуло в бесконечность и стало неопределённостью.

Ну что ж, как бы то ни было, самая простая часть осталась позади. Впереди было самое сложное - рисование :) Рисовать я не умею от слова совсем и вообще рукожоп, а все познания о графике состоят из того, что я нахваталась от знакомых: всякое там "рисование объёмами" и "цветовой круг Иттена". Что не мешает мне пробовать.

В этом конкретном случае фиксов было не так уж и много: убрала серьги (Гоэмон милый, но не настолько), убрала засветы, отрезала третью ногу, убрала текст снизу и сверху, сделала фон более симметричным (добавила цветы над правым плечом). Добавила небольшую пасхалку на бутылку :) Теперь там написано "саке из Ишикавы" - так называется одна из префектур в Японии и это созвучно фамилии Гоэмона (у японцев безумно много фамилий, совпадающих с топонимами).

На вопросы о том, как точно это всё устроено под капотом, я вряд ли отвечу, потому что математик только на бумаге и, тем более, не "дата-сатанист" :) Но, надеюсь, вам было интересно.

1 декабря 2024

Отключить рекламу

10 комментариев из 11

Показать ещё 1 комментарий

	Няшка в подтяжках 1 декабря 2024
Люська-Писарь она как квинтэссенция работы с нейронками :) 1

Дядюшка Ди

2 декабря 2024

А с какими базовыми моделями работаете? А то непонятно, то комп слабенький, то лоры обучать хватает. Просто, если действительно слабый и речь про 1.5, то он уже есть https://civitai.com/models/93583/goemon-ishikawa-xiii-lupin-iii
Для генерации одного персонажа в несложной позе должно было хватить и возможностей полторашки. Но проделанной работы это не умоляет.
Кстати, почему инпейнтом брезгуете? Некоторые исправления можно было сделать в нем, не прибегая к ручному труду.

Няшка в подтяжках

5 декабря 2024

Дядюшка Ди
Во-первых, потому что могу :) Во-вторых, потому что было интересно попробовать.

Так-то у меня SD1.5 и 4 гига врамы. Т.е. как бы хватает на поиграться, но если начать обвешивать свистелками и перделками вроде детейлеров, controlnet и дополнительных эмбеддингов, то иногда даже с пресетом на lowvram нейронка хочет убиться об стену. Лорки в итоге учатся очень медленно, но справляются (но, с другой стороны, я туда и не 1к исходников скармливаю, как некоторые советуют).

Просто, если действительно слабый и речь про 1.5, то он уже есть

Эту лору я видела, но там чисто фандомная проблема :) Этого персонажа в каждом сезоне и в каждой второй OVAшке рисуют с новым чардизом. Иногда прям кардинально. Ту лору обучали в основном на первых сезонах и чужих артах по ним же - это хорошо видно по всяким мелочам вроде формы бакенбард (и тому, что они вообще есть) и цветам дефолтной одежды. А мне нужен был мальчик-зайчик из последних сезонов )

Кстати, почему инпейнтом брезгуете?

Инпеинт не со всеми чекпоинтами у меня нормально работает, иногда начинает сильно говнить линии. Я его в другом арте для перекраса и убирания всяких соплей использовала - там он отлично отработал.

Показать полностью

Дядюшка Ди

6 декабря 2024

Няшка в подтяжках
А сколько времени заняло обучение и сколько было изображений в тренинг сете? Интересуюсь потому что пытался около года назад, так же под 1.5 и с 8врамы, но прождав почти сутки получил крайне жидкую субстанцию на выходе, а исходников было меньше сотни. Но и делал просто чтобы попробовать не сильно вникая в нюансы.

А ещё каким интерфейсом пользуетесь? Я про генерации, а не про обучение.

Няшка в подтяжках

6 декабря 2024

Дядюшка Ди
Больше ночи, меньше суток) вечером поставила, на следующий день с работы приползла - было готово. В обучающем множестве было 30 скринов, батчи по 6, с ограничением на общее количество шагов, чтобы процесс в бесконечность не ушёл. Но я исходники дорабатывала ещё, чтобы совпадали по освещению, фон убирала и т.д. Да, в итоге получается ОЧЕНЬ много брака, но более-менее подходящие сиды всё-таки нашлись, от них и отталкивалась.

Генерирую в Automatic1111. xformers отключены, т.к. дают недетерминированные результаты, а при таких вводных хочется, чтобы одни и те же запрос+сид давали примерно одну и ту же картинку.

Дядюшка Ди

6 декабря 2024

Няшка в подтяжках
WebUI Forge не пробовали? Я на него полностью перешёл, восхитительная оптимизация. В автоматеке за xl даже боялся браться, а тут забыл про 1.5. А интерфейс суть до дела тот же самый, эксплуатирует те же самые расширения, по ощущения намного стабильнее, во всяком случае бсоды я уже давно не ловил, в худшем случае уходил в перезагрузку из-за апскейлеров или инпейнта слишком больших изображений. Говорят, только говорят, что можно использовать и на двух гигах врамы, но сам не пробовал. Ну а без каких-либо вмешательств в конфиг генерация на sdxl, при средних 30 шагах занимает около 45 секунд, плюс минус из-за семплеров. Однако, обновляется не так часто как исходник автоматика.

Няшка в подтяжках

8 декабря 2024

Дядюшка Ди
Я про него слышала, но решила начать с простого, чтобы просто попробовать и потыкать. Спасибо за отзыв на инструмент, потом посмотрю на него, как время будет)
Быстро-то быстро, а на сколько стабильно? 10 генераций подряд с идентичными стартовыми настройками дадут идентичные результаты? А то на автоматику тоже есть настройки и плагины для ускорения и облегчения, но получается неконтролируемая фигня. Т.е. как бы для случая "нагенери мне кошкодевочек для обложки очередного гаремника" подойдёт, а на что-нибудь более разумное - уже нет.

Gorenika Онлайн

8 декабря 2024

Я ничего не поняла, но было интересно. Ну, поняла, что много труда затрачено. Меня нейросеть Шедеврум поняла единственный раз
Запрос был: Гоэмон Исикава тринадцатый с белыми крыльями в стиле аниме. И выдал почти подходящее. Такого брутального Гоэмона, все как я люблю)
А ты молодец!

Дядюшка Ди

8 декабря 2024

Няшка в подтяжках
Это форк автоматика, внешне и функционально абсолютно идентичный, плюс минус по мелочи. По сиду не сличал, но некоторые арты с цивиты повторяет полностью, несмотря на некоторое отличие их внутреннего генератора. А если смущает факт того, что это форк, то в защиту скажу, что создан он тем же человеком, который ответственен за появление контролнета.

	Няшка в подтяжках 8 декабря 2024
Gorenika Я пробовала анимешные бесплатные сети - они не справились) Хотя, казалось бы, уж они-то про Гоэмона должны больше знать :) 1