Коллекции загружаются
#лол
20 декабря в 22:38
3 |
Заяц
o3 это новая модель, проценты это проценты решённых ей задач на бенчмарках. Топовые математики в мире смогут сделать 10% на "frontier math" если им дать на это месяц наверн, так как специализация. Arc-agi это задачки типа тех как на моем предыдущем посте, обычные люди 85%, с высшим технарским образованием 95%, раньше модели набирали 20% или 30% на нем. 1 |
Математика будет съедена первой на пути к agi кажется
|
Ногa
Математика будет съедена первой на пути к agi кажется Это же все задачки с известными ответами, да? Я имею в виду, в бенчмарках. Это совсем другое дело по сравнению с тем, когда задачка задаётся нечётко, или когда никто ничего не понимает, и задачу люди ставят сами себе.И я ещё не понял момент с галлюцинациями. Если ответ известен, то более-менее понятно. Если не известен, то как вообще проверять, что оно нам ничего не наглючило? |
Proof checker, если написать доказательство в особом языке то можно проверить правильный это ответ или нет. А вот на этом месте я бы напомнил про ту самую теорему Геделя о неполноте.1 |
Не имеет значения на практике
|