Если совсем упрощённо: берется миллион изображений и миллион описаний этих изображений. Берется нейросеть с сотнями тысяч параметров. Дальше она должна из случайного шума и текстового описания повторить картинку из обучающего набора. После каждого шага обучения параметры сети понемногу подкручиваются так, чтобы сгенерированное изображение стало как можно ближе к эталону из обучающего набора. Поскольку таких изображений миллионы, в итоге сеть выучивает не эти конкретные изображения, а набор каких-то закономерностей и абстракций, которые стоят за этими изображениями и отличают просто случайный цветной шум от картинки, в которой есть какой-то смысл, и которая чему-то реальному соответствует (или не очень реальному, но все равно понятному человеку). Но всякие высокоуровневые абстракции нейросеть по-прежнему не может усвоить только из картинок. "Понимания" там нет, поэтому появляются лишние ноги и все остальное. И самые подвижные элементы с большим количеством степеней свободы — руки, пальцы, глаза, тоже не очень хорошо обобщаются. Поэтому нужны всякие добавочные костыли, если мы хотим нормальный результат.
#всем_пох #жызнь #реал
Сегодня я помыла кухню квасом. Нет, я помнила, что квас из КБ пенится. И я поэтому поставила его в раковину. Струя достала до верха шкафчика-сушилки и магическим образом ударила по окнам. А я их мыла недавно!
А, да. Еще я поперлась открывать эту бутылку не переодевшись с улицы. Белая шелковая блузка и приличная юбка в квасе. Вся эта роскошь усугубляется тем, что у меня нет горячей воды. А, поскольку, это бедствие я пережидаю у дочки, у меня даже кастрюли с горячей водой не подготовлено.
Да еще квас, зараза, вылился почти весь. Остатки я допила и теперь хочу пить, а в магазин идти уже лень. Размышляю вот на тему вкусвилской доставки