|
23 октября в 09:05
|
|
|
MarjoryTigerrr
Теmр Либо, что тоже вероятно, модель просто провалилась в какой-то локальный минимум и не может из него выбратьсяМне кажется, вот эта часть сомнительная: Потому что, если эффект снижения перформанса - просто статистический сдвиг, то старые паттерны внимания можно восстановить, если дать достаточно книжек и статей. Ну то есть кто-то делает сенсацию из того, что дали недостаточно - и модель не переобучилась ¯\_(ツ)_/¯ Градиентная динамика тут тоже играет против нас. Лосс просто-напросто минимизируется за счет поверхностных корреляций, а параметры, отвечающие за долгие причинно-следственные связи, почти не получают обновлений. в итоге получаем *толстую лошадку, бегающую по кругу* Ну и явно не написано сколько качественных данных они в итоге скормиле "испорченной" ллмке, чтобы исправить ситуацию, может быть, для того, чтобы восстаовить утраченные долгие причинно-следственные связи нужно намного больше данных, чем она съела мусора на входе. |
|