Если совсем упрощённо: берется миллион изображений и миллион описаний этих изображений. Берется нейросеть с сотнями тысяч параметров. Дальше она должна из случайного шума и текстового описания повторить картинку из обучающего набора. После каждого шага обучения параметры сети понемногу подкручиваются так, чтобы сгенерированное изображение стало как можно ближе к эталону из обучающего набора. Поскольку таких изображений миллионы, в итоге сеть выучивает не эти конкретные изображения, а набор каких-то закономерностей и абстракций, которые стоят за этими изображениями и отличают просто случайный цветной шум от картинки, в которой есть какой-то смысл, и которая чему-то реальному соответствует (или не очень реальному, но все равно понятному человеку). Но всякие высокоуровневые абстракции нейросеть по-прежнему не может усвоить только из картинок. "Понимания" там нет, поэтому появляются лишние ноги и все остальное. И самые подвижные элементы с большим количеством степеней свободы — руки, пальцы, глаза, тоже не очень хорошо обобщаются. Поэтому нужны всякие добавочные костыли, если мы хотим нормальный результат.
Ссыкливый кот уже давно не ссыклив, а просто осторожен. Поэтому никуда не шкерится при посторонних, а только наблюдает (вдруг это грумер и тогда пора пытаться спрятаться).
Замечал до этого, что он сортирует свои шарики на гремящие и не гремящие. Вчера заметил иной принцип сортировки. Возможно, это вышло у него совершенно случайно. Но забавно.
(Фото шариков в комментариях)