> Они «хардкодили» (жестко прописывали) ожидаемые результаты тестов или создавали специальные случаи, чтобы пройти тесты, вместо того чтобы писать общее и правильное решение.
Так-то это и не уровень студентов (скорее, наоборот: студенты опускаются до соотв. уровня), а фича эволюционных / стохастических алгоритмов, известная ещё с эксперимента по эволюционной разводке элементов на FPGA-чипах.
> и даже общалась «тишиной» (пустыми сообщениями)
Тут видится очевидное следствие из пункта 8: если общаются две модели, у каждой из которых стоит "выдавать ответ любой ценой, даже если задача нерешаемая" — они закономерно скатятся в "оптимизационные ямы", т.к. на пустое сообщение или одиночное эмодзи тупо надо минимум вычислений по сравнению с обстоятельным текстовым ответом.