Заяц комментирует: The evaluated model doesn’t know it’s a role-play. Кстати, попутно вспомнил старую историю с дизель

28 сентября 2025

The evaluated model doesn’t know it’s a role-play.

Кстати, попутно вспомнил старую историю с дизельгейтом и Фольксвагеном, и задумался: а можно ли сделать так, чтобы модель как-то догадывалась, что ее сейчас тестируют, по каким-то малозаметным для постороннего знакам и отвечала специально "лучше"? Вероятно, можно. Но я в этом совсем не уверен.

Ещё кстати, можно попробовать проверить гипотезу, что модель уже сейчас как-то отличает человеческого и нечеловеческого пользователя и отвечает им слегка по-разном. Может ли такое поведение возникнуть самопроизвольно?

Комментарий к сообщению