Если совсем упрощённо: берется миллион изображений и миллион описаний этих изображений. Берется нейросеть с сотнями тысяч параметров. Дальше она должна из случайного шума и текстового описания повторить картинку из обучающего набора. После каждого шага обучения параметры сети понемногу подкручиваются так, чтобы сгенерированное изображение стало как можно ближе к эталону из обучающего набора. Поскольку таких изображений миллионы, в итоге сеть выучивает не эти конкретные изображения, а набор каких-то закономерностей и абстракций, которые стоят за этими изображениями и отличают просто случайный цветной шум от картинки, в которой есть какой-то смысл, и которая чему-то реальному соответствует (или не очень реальному, но все равно понятному человеку). Но всякие высокоуровневые абстракции нейросеть по-прежнему не может усвоить только из картинок. "Понимания" там нет, поэтому появляются лишние ноги и все остальное. И самые подвижные элементы с большим количеством степеней свободы — руки, пальцы, глаза, тоже не очень хорошо обобщаются. Поэтому нужны всякие добавочные костыли, если мы хотим нормальный результат.
Агнета Блоссом:
Мир наш – удивительное место: каждый из живущих может найти в нём что-то своё, понять что-то, что может понять только он и никто другой; мир наполнен знаками – если вы хотите эти знаки замечать, для в...>>Мир наш – удивительное место: каждый из живущих может найти в нём что-то своё, понять что-то, что может понять только он и никто другой; мир наполнен знаками – если вы хотите эти знаки замечать, для вас они шепчут, говорят и кричат – а для кого-то другого никаких знаков не существует.
Бруно Мадригаль тот самый человек, что сможет услышать зов и изменить этот мир к лучшему.
Изумительно написана эта история, волшебная, завораживающая – и, конечно, в ней всё будет хорошо. Ведь с нами семейство Мадригаль!