Asteroid комментирует: C17H19NO3 есть, ты даже не способен понять, где и как сетка проебалась, и где и как с сеткой проебал

19 июля 2024

есть, ты даже не способен понять, где и как сетка проебалась, и где и как с сеткой проебался ты.

Мне главное, что не понял ты. )))
Повторюсь: я считаю тезис полностью доказанным на практике. Все теоретические слова после этого - пустое сотрясение воздуха.

Тонко сравнялся по уровню, да.

То есть, ты и сам подтверждаешь, что сетка мыслит не хуже человека. )))

И, кстати, вот тебе о том, что "сетка может только выдавать усредненные данные из датасета".

https://arxiv.org/abs/2406.11741

Transcendence: объясняем главный парадокс AI

Почему модели генерят лучше, чем их обучили? Разбираемся с исследователями из Гарварда.

Принцип работы генеративных моделей заключается в том, что они стремятся максимально близко повторить распределение данных, которое имел собранный тренировочный датасет 🧳 Обычно нельзя ожидать, что их перформанс будет лучше, чем у экспертов, составляющих базу данных. К примеру, авторегрессионная модель для предсказания следующего шахматного хода, согласно теории, не должна играть более профессионально, чем самый сильный игрок (данные о ходах которого использовались в обучении) 🤓

Но иногда ученики превосходят учителей 👏 Transcendence (как был назван феномен) подразумевает, что оценка перформанса с помощью заданной reward-функции оказывается выше, чем у любого наблюдения в тренировочных данных.

Как это понимать:

💎 авторы связывают трансценденцию с low-temperature sampling, при котором модель концентрируется в генерации токенов только на действиях, приносящих наибольший прирост reward-метрики
💎 в частности, доказано: если на тренировочном датасете токен, который с наибольшей вероятностью генерирует модель, превосходит все токены из этого датасета, то low-temperature sampling может привести к трансценденции на инференсе

Эмпирические проверки проводились на тех самых шахматах. Несколько моделей 50M обучили на партиях реальных игроков и сравнили перформанс с помощью рейтинга Glicko-2 в играх против движка Stockfish 16.1.

Модели, обученные на достаточно разнообразных датасетах, при использовании low-temperature sampling действительно играли на рейтинг выше, чем игроки, на партиях которых их тренировали 😉 Требование к разнообразию датасетов важно, так как более однородные данные исключают возможность трансценденции.

Но у low-temperature sampling всё же есть ряд проблем, поскольку уменьшение энтропии в генерации ведёт, например, к более однообразным ответам модели 🤬

Комментарий к сообщению