а можно ли сделать так, чтобы модель как-то догадывалась, что ее сейчас тестируют, по каким-то малозаметным для постороннего знакам и отвечала специально "лучше"?
Как раз начинает это появляться. Люди сейчас работают над тем чтобы они перестали это делать, так как это путает все тесты если модель специально пытается сказать то что вы хотите слышать в этом конкретном тесте.