The evaluated model doesn’t know it’s a role-play.
Кстати, попутно вспомнил старую историю с дизельгейтом и Фольксвагеном, и задумался: а можно ли сделать так, чтобы модель как-то догадывалась, что ее сейчас тестируют, по каким-то малозаметным для постороннего знакам и отвечала специально "лучше"? Вероятно, можно. Но я в этом совсем не уверен.
Ещё кстати, можно попробовать проверить гипотезу, что модель уже сейчас как-то отличает человеческого и нечеловеческого пользователя и отвечает им слегка по-разном. Может ли такое поведение возникнуть самопроизвольно?