Ногa: #лол

#лол

20 декабря 2024

6 комментариев из 12

21 декабря 2024

Заяц
o3 это новая модель, проценты это проценты решённых ей задач на бенчмарках. Топовые математики в мире смогут сделать 10% на "frontier math" если им дать на это месяц наверн, так как специализация. Arc-agi это задачки типа тех как на моем предыдущем посте, обычные люди 85%, с высшим технарским образованием 95%, раньше модели набирали 20% или 30% на нем.

	Ногa 21 декабря 2024
Математика будет съедена первой на пути к agi кажется

Заяц

21 декабря 2024

Ногa

Математика будет съедена первой на пути к agi кажется

Это же все задачки с известными ответами, да? Я имею в виду, в бенчмарках. Это совсем другое дело по сравнению с тем, когда задачка задаётся нечётко, или когда никто ничего не понимает, и задачу люди ставят сами себе.

И я ещё не понял момент с галлюцинациями. Если ответ известен, то более-менее понятно. Если не известен, то как вообще проверять, что оно нам ничего не наглючило?

Ногa

21 декабря 2024

Математика хороша тем что всегда есть ответ, если ты можешь задать вопрос! Т.е. тебе самому не нужно знать ответ, просто сформулировать это. Ну а так то да, long term planing это все ещё сложно. На ближайшие время скорее всего ИИ будет предлагать 1000 идей, человек будет выбирать что ИИ будет фокусить. Что-то в этом роде

Если не известен, то как вообще проверять, что оно нам ничего не наглючило?

Proof checker, если написать доказательство в особом языке то можно проверить правильный это ответ или нет.

	Заяц 21 декабря 2024
Proof checker, если написать доказательство в особом языке то можно проверить правильный это ответ или нет. А вот на этом месте я бы напомнил про ту самую теорему Геделя о неполноте. 1

	Ногa 21 декабря 2024
Не имеет значения на практике