Теmр комментирует: MarjoryTigerrr Теmр Мне кажется, вот эта часть сомнительная: Потому что, если эффект снижения перфор

23 октября в 09:05

Теmр
Мне кажется, вот эта часть сомнительная:
Потому что, если эффект снижения перформанса - просто статистический сдвиг, то старые паттерны внимания можно восстановить, если дать достаточно книжек и статей. Ну то есть кто-то делает сенсацию из того, что дали недостаточно - и модель не переобучилась ¯\_(ツ)_/¯

Либо, что тоже вероятно, модель просто провалилась в какой-то локальный минимум и не может из него выбраться

Градиентная динамика тут тоже играет против нас. Лосс просто-напросто минимизируется за счет поверхностных корреляций, а параметры, отвечающие за долгие причинно-следственные связи, почти не получают обновлений.

в итоге получаем *толстую лошадку, бегающую по кругу*

Ну и явно не написано сколько качественных данных они в итоге скормиле "испорченной" ллмке, чтобы исправить ситуацию, может быть, для того, чтобы восстаовить утраченные долгие причинно-следственные связи нужно намного больше данных, чем она съела мусора на входе.

Комментарий к сообщению