Каждый пиксель картинки описывается уравнением с большим (от сотен тысяч и больше) числом переменных. Перед каждой из переменных стоит некий условный коэффициент, определяющий её "весовой вклад" в значение цвета пикселя. Все эти уравнения объединяются в систему уравнений. Итоговая система уравнений решается численным методом (итерационно) до достижения некоего оптимума, значение которого задаётся по введённому промпту.
Собственно, работа нейросетки — вычисление значений цвета всех пикселей при известном наборе коэффициентов (который и есть "модель"); обучение нейросетки — обратная подгонка значений коэффициентов модели при заранее заданных значениях переменных (и соответственно, цвета пикселей).
Если добавочно отшифровать смысл модели на "человеческом языке", то совокупность весовых коэффициентов означает примерно такое: "если вот в этом месте стоит пиксель такого-то цвета, то в пределах стольки-то позиций от него должно быть от стольки-то до стольки-то пикселей вот этого цвета", и так для очень большого числа возможных вариантов.