Секрета нет, есть ограничения)
1) Более крутые сети (с большим числом слоёв, продвинутой архитектурной, обученные на большей выборке и мощностях) рисуют лучше. Соответственно, Миджорни будет реже выдавать кривые лица и руки, чем ноунейм сервис. Midjourney, StableDiffusion - топчик. ChatGPT ещё неплохо справляется.
2) Многофигурные композиции по-прежнему даются ИИ плохо. Если людей на картинке больше двух, что-то обязательно пойдёт не так...
Надписи тоже почти всегда кривые, даже в Миджорни и на английском. Тут, как писали выше, проще применить фотошоп.
3) Получение хорошей картинки - вероятностный процесс, поэтому да, сто раз генерировать.
4) Магия промптов - к каждой сети нужно приспосабливаться, экспериментируя с формулировкой запроса. Например, Шедеврум весьма хорош, но я так и не могу добиться от него нужного мне стиля.