↓
 ↑
Регистрация
Имя/email

Пароль

 
Войти при помощи
Временно не работает,
как войти читайте здесь!
Ногa
20 декабря в 22:38
Aa Aa
#лол

20 декабря в 22:38
6 комментариев из 12
Заяц
o3 это новая модель, проценты это проценты решённых ей задач на бенчмарках. Топовые математики в мире смогут сделать 10% на "frontier math" если им дать на это месяц наверн, так как специализация. Arc-agi это задачки типа тех как на моем предыдущем посте, обычные люди 85%, с высшим технарским образованием 95%, раньше модели набирали 20% или 30% на нем.
Математика будет съедена первой на пути к agi кажется
Ногa
Математика будет съедена первой на пути к agi кажется
Это же все задачки с известными ответами, да? Я имею в виду, в бенчмарках. Это совсем другое дело по сравнению с тем, когда задачка задаётся нечётко, или когда никто ничего не понимает, и задачу люди ставят сами себе.

И я ещё не понял момент с галлюцинациями. Если ответ известен, то более-менее понятно. Если не известен, то как вообще проверять, что оно нам ничего не наглючило?
Это же все задачки с известными ответами, да? Я имею в виду, в бенчмарках. Это совсем другое дело по сравнению с тем, когда задачка задаётся нечётко, или когда никто ничего не понимает, и задачу люди ставят сами себе.

Математика хороша тем что всегда есть ответ, если ты можешь задать вопрос! Т.е. тебе самому не нужно знать ответ, просто сформулировать это. Ну а так то да, long term planing это все ещё сложно. На ближайшие время скорее всего ИИ будет предлагать 1000 идей, человек будет выбирать что ИИ будет фокусить. Что-то в этом роде

Если не известен, то как вообще проверять, что оно нам ничего не наглючило?

Proof checker, если написать доказательство в особом языке то можно проверить правильный это ответ или нет.
Proof checker, если написать доказательство в особом языке то можно проверить правильный это ответ или нет.
А вот на этом месте я бы напомнил про ту самую теорему Геделя о неполноте.
Не имеет значения на практике
ПОИСК
ФАНФИКОВ









Закрыть
Закрыть
Закрыть