Если совсем упрощённо: берется миллион изображений и миллион описаний этих изображений. Берется нейросеть с сотнями тысяч параметров. Дальше она должна из случайного шума и текстового описания повторить картинку из обучающего набора. После каждого шага обучения параметры сети понемногу подкручиваются так, чтобы сгенерированное изображение стало как можно ближе к эталону из обучающего набора. Поскольку таких изображений миллионы, в итоге сеть выучивает не эти конкретные изображения, а набор каких-то закономерностей и абстракций, которые стоят за этими изображениями и отличают просто случайный цветной шум от картинки, в которой есть какой-то смысл, и которая чему-то реальному соответствует (или не очень реальному, но все равно понятному человеку). Но всякие высокоуровневые абстракции нейросеть по-прежнему не может усвоить только из картинок. "Понимания" там нет, поэтому появляются лишние ноги и все остальное. И самые подвижные элементы с большим количеством степеней свободы — руки, пальцы, глаза, тоже не очень хорошо обобщаются. Поэтому нужны всякие добавочные костыли, если мы хотим нормальный результат.
enorien:
Жизнь в Глухих Буераках продолжается и в этот раз пришло время для очень радостных и важных событий! Да-да, для свадьбы и планирования расширения семьи! Как же герои с этим справятся? А вот стоит проч...>>Жизнь в Глухих Буераках продолжается и в этот раз пришло время для очень радостных и важных событий! Да-да, для свадьбы и планирования расширения семьи! Как же герои с этим справятся? А вот стоит прочитать и узнать! Будет очень душевно и весело! Будет и девичник, и мальчишник, и торжество, и подарки, и разговоры, и знакомые герои, которые будут наконец-то раскрываться, а не нести на плечах груз прежних потерь, сражений и всего прочего. Перед нами тихий прекрасный уголок, но здесь течёт своя, необыкновенная, по-своему удивительная и прекрасная жизнь. Погружаться в неё одно наслаждение, рекомендую это сделать.