|
23 октября в 08:48
|
|
|
Теmр
Мне кажется, вот эта часть сомнительная: Позже исследователи решили переобучить модели, но эффекта почти не было. Следы деградации остались. Потому что, если эффект снижения перформанса - просто статистический сдвиг, то старые паттерны внимания можно восстановить, если дать достаточно книжек и статей. Ну то есть кто-то делает сенсацию из того, что дали недостаточно - и модель не переобучилась ¯\_(ツ)_/¯ |
|