Потому что в своей основе этот алгоритм достраивает наиболее вероятную последовательность. Соответственно, он будет воспроизводить все самые вероятные паттерны культуры. А всякие сложные описательные конструкции он понимает очень условно.
Если в сотнях тысяч картинок из обучающей подборки большинство графики с подписью "смысл жизни" было выдрано с сайтов про личностный рост и сопутствующую ему мотивационную ебаторию, где чаще всего используется образ заката на океане, то при запросе "смысл жизни" без уточнения он и будет эти закаты воспроизводить. А уточнения не всегда поймет, потому что см. выше. Так что все эти штучки вроде "нарисуй смысл жизни" или "нарисуй автопортрет" нарисуют вовсе не смысл жизни с точки зрения нейросети или "автопортрет" нейросети.
Есть ещё одно следствие: что-то нестандартное и оригинальное генерировать такими алгоритмами с нуля сложно, потому что слишком велика тяга к усредненной композиции, усредненным позам и ракурсам. Если коротко, картинки будут получаться довольно вторичными, если не подсовывать исходники для дорисовывания, как делают некоторые.