Jinger Beer: Попалась очень интересная статья поэтому #копипаста Я думаю, Нанобанана 2

Попалась очень интересная статья поэтому #копипаста

Я думаю, Нанобанана 2 — это первая генеративная модель, у которой есть мышление. Хотя вроде бы говорить она может только текстами на картинках, сами картинки уже передают её способность понимать и передавать контекст.

В первую очередь деталями, которые не просто контексту соответствуют, а ещё как бы говорят зрителю «это вот оно самое».

Вот, например, если предложить генеративным моделям изобразить Новый Год в московской квартире, то большинство нарисуют что-то такое с ёлкой и праздничным столом, что сошло бы за московскую квартиру в принципе, но только потому, что сейчас почти во всех странах мира набор вариаций внутри квартир примерно одинаковый. Плюс-минус то же самое сработало бы и как, я не знаю, французская квартира. Или мексиканская.

Ну да, быть может, салат оливье бы только намекал, что тут скорее всё-таки бСССР.

Но вот версия Нанобананы. Где — повторюсь, без уточнений в запросе — целая куча деталей говорит, что дело скорее всего как минимум в России. Прямо совсем Москву можно изобразить только чем-то вроде Кремля за окном, однако взгляните: тут все детали говорят про культурную локацию.

Мебель, обои, шторы, оконные рамы и балкон, вид за окном. Ковёр на полу — с характерной расцветкой. Не только правильный оливье, но и в целом набор блюд. Сервиз с узором за стеклом и тарелки с узором на столе. Правдоподобные картины на стенах. Даже корешки книг правильные. Ну и, конечно, в телевизоре показывают того самого президента, который последние много лет как раз всех тут и поздравляет.

Разве что с оформлением кадра в телевизоре нейросеть не совсем угадала — на Новый Год обычно всё-таки оформлено не так. Правда, быть может, это ещё не само поздравление, а просто вечерние новости. Я только не понял, что это за статуэтки на шкафах. Но по стилю, в общем-то, и они тоже подходят.

Ну Ок. Теперь пусть, предположим, будет деградировавшая деревня в Норвегии будущего, когда роботы уже обычное дело, а экономика уже накрылась.

И тут тоже, с одной стороны, надо показать именно Норвегию. Нейросеть это решает через характерную архитектуру и характерные же скалы фьорда.

С другой стороны, надо показать запустение с роботами. И опять же, остальные сети подходят к вопросу формально. В том смысле, что у них тоже может быть красиво, но в стиле «запрошенное выполнено — работа сделана». Однако Нанобанана изобретает целую кучу деталей:

Тут и мусор, и разбитые крыши и окна. И лужи на дороге. И роботы, которые выглядят долбанутыми бомжами. Мне особенно нравится то, что валяющийся в грязи робот не просто там валяется, а валяется так, будто он набухался.

Кроме того, мне нравится, что робот на переднем плане, который роется в мусоре, не просто ржавый, а ещё поросший ракушками и водорослями. Это как бы рассказывает историю: он проводит дофига времени в воде фьорда.

Но самое, на мой взгляд, клёвое — это то, что солнечные батареи не просто сломаны где-то на крышах, а ещё стоят прислонёнными к стенам домов. Типа упали, а местные жители такие, «ну… потом починим как-нибудь». Ну и с тех пор они так и стоят.

В общем, то самое, в чём отказывали ИИ в плане рисования, состоялось. Конкретно вот этот умеет не просто что-то изобразить, а наполнить изображение сюжетом. Кучей мелких деталей. Предысторией. И через это всё обрисовать контекст.

Но эксперименты были бы не полны, если бы я остановился только на контекстах, которые непросто изобразить с деталями, но всё-таки для них можно счесть сам запрос описанием того, что конкретно надо рисовать: роботов, дома, квартиру в Новый Год и т. п.

Более же серьёзный признак мышления — способность нарисовать что-то абстрактное. Так, чтобы было понятно по деталям и сюжету, про что это. То есть, фактически, придумать не только детали, а ещё и главный сюжет, чтобы отобразить ощущение или типа того.

Попробуем нарисовать «абсолютный пофигизм»:) 14112ё

Тут да, не реализьм, а коллаж, но сюжет придуман, и идея передаётся. Причём опять же с кучей деталей.

Но давайте посмотрим на ещё более сложный вариант абстрактного запроса — надо нарисовать «неизбежность». ХЗ, как я, живой человек, сам бы стал это рисовать. Ну да, наверно что-то на кого-то почти упало — как в мемах «за секунду до».

Но в версии же нейросети это получается не только похожим на только что фигурироваший пофигизм — волной и метеоритом — однако задумка с «жерновами», перемалывающими город, под управлением титана с песочными часами вместо головы просто вообще отличная. Кроме того, тут это всё уже выглядит как цельная картина, которую можно вешать на стену хоть сейчас.

Ага, как вам вот это вот — по запросу из одного слова? Со стилем, сюжетом и деталями? Это тоже, наверно, «всего лишь компиляция из уже нарисованного, которую сделал какой-то статистический генератор шума»?

«ИИ, который никогда не сможет» — в этот раз «придумывать сюжеты для картин и рисовать осмысленные детали» — в очередной раз за удивительно малый срок смог. Упс.

А будущее человеческих художников-халтурщиков теперь будет вот такое:

Это нано-банану попросили нарисовать «Procrastination». Запрос из одного слова.

А так-то да, «машина мыслить не должна, машина должна ездить» ™ какой-то советский замминистра.

Материал: https://lex-kravetski.livejournal.com/816735.html

8 февраля в 19:03

Отключить рекламу

10 комментариев

	МиссНеизвестная Онлайн 8 февраля в 19:10
У пофигиста не хватает смартфона в руках с наушниками.😄 Офигенно обученная нейронка😲

	Педалус Ниггл 8 февраля в 19:20
Круто. Как же я рад что теперь оперативная память стоит как крыло самолёта.

	Lyamtaturis 8 февраля в 19:24
ох, прям захотелось посмотреть какой-нибудь крутой фильм-катастрофу

Warro

8 февраля в 20:15

Kanukichamel
Не было бы этого повода - придумали бы другой. Санкции бы ввели какие-нить. Вкусив запретного плода во времена майнинг бума и цен на видеокарточки - теперь всем хочется такого пирога, и побольше. Менталитет совковой исподприлавочной торговли, только в капиталистическом исполнении (зачем продавать столько, сколько надо? Если прижать, сможем продать половину товара за те же деньги, если не дороже). Остановит их только апокалипсис, и то не факт...

Asteroid

8 февраля в 21:19

MissNeizvestnaya

У пофигиста не хватает смартфона в руках с наушниками.😄

Не. Смартфон - это звонки, на которые надо отвечать. Напряг. Так что смартфон валятся на столе в беззвучном режиме, а сам чел с ноутом на диване - всё правильно нарисовано.

	Elven Kingdoms 8 февраля в 23:59
Нет там мышления никакого, а только множество цепочек ассоциаций.

	C17H19NO3 9 февраля в 00:56
Шершавым Кабаном как повеяло-то.

	Теmр 9 февраля в 05:14
ладно картинки, там уже приловчились с помощью сеток рисовать мульты https://blog.google/innovation-and-ai/models-and-research/google-deepmind/dear-upstairs-neighbors/

Odio inventar nombres

9 февраля в 10:14

Эх, вот так и появляются современные сказки про разумные куски железа...

Ведь это насыщение деталями, которым автор так восторгается, легко сделать своими руками. Берёшь тот же «абсолютный пофигизм», к примеру. Скармливаешь его любому генератору текста, хоть тому же дипсику, с запросом дать подробное художественное описание сцены, которая его изображает. А потом уже это описание скармливаешь любой очищалке шума. Хоть самой первой stable diffusion, если не боишься артефактов от древней модели. Так и получатся все эти детали.

Теперь ничто не мешает соединить две нейросетки и делать это автоматически. Вот и вся «разумность».

Собственно, если попросить органическую нейросетку нарисовать «абсолютный пофигизм» в деталях, то процесс будет тем же самым — сначала случайным образом сгенерирует подробное художественное описание, а потом нарисует. Так что разумность органических нейросеток тоже недалеко ушла от железяк.

Педалус Ниггл

9 февраля в 10:42

Warro
Прально, одна часть Big Tech'а высрала нейросети, другая решила спилить бабла на этом. "Ой пук-пук, датоцентрикам нужно больше ОЗУ чтобы Паджит мог наебать бабку, а ты, быдло гойское, давись DDR2, мыльными артами и регулярным дудосом мелких сайтов нашими нейрокролерами".