Lost-in-TARDIS: #интересность В моменты возникающей уверенности в том, что LLM умна, языкаста, знает все и не ошиб

#интересность

В моменты возникающей уверенности в том, что LLM умна, языкаста, знает все и не ошибается, рекомендую к просмотру следующий сайт.
https://clocks.brianmoore.com/
Раз в минуту отправляют запросы девяти моделям с задачей написать HTML/CSS код для веб-часов. Результаты... помогут справиться с этой уверенностью.

15 ноября 2025

Отключить рекламу

15 комментариев

	Lost-in-TARDIS Онлайн 15 ноября 2025
А также увидеть, насколько ответы LLM подвержены рандомизации. Разные часы на каждый новый запрос. Некоторые модели иногда выдают достаточно правильные часы, чтобы в следующую минуту выдать несусветную дичь.

Заяц

15 ноября 2025

А также увидеть, насколько ответы LLM подвержены рандомизации. Разные часы на каждый новый запрос.

Это всегда можно уменьшить или отключить. LLM детерминированы, а случайность задается через параметр "температуры". Хотя не все модели дают к нему прямой доступ.

Lost-in-TARDIS Онлайн

15 ноября 2025

Заяц
Да, разумеется, но верно замечено, что не все модели дают к нему прямой доступ, да и обычный юзер не разворачивает у себя, а пользуется моделями как они есть и не копается в температуре. Здесь - дефолтные настройки общедоступных моделей и то, как их юзает большинство потребителей. И если в дефолте ответы могут ранжироваться до полного бреда... ну ква.

	Жозина 15 ноября 2025
Lost-in-TARDIS обычный юзер Хааааа, обычный юзер ваще ничё нипонял🙃

Синифаз Аграфский

15 ноября 2025

Lost-in-TARDIS
Они просто спрашивают обычные модели, а не специально обученные для написания кода. Так что у моделей просто не хватает данных, для правильного кодинга. Никто их толком кодить не учил, так что, когда они выдают что-то рабочее - это уже чудо.

Lost-in-TARDIS Онлайн

15 ноября 2025

Синифаз Аграфский
А вот и нет, вы сильно заблуждаетесь, эти модели в том числе позиционируются как помощники в написании кода (и вообще всех вопросах на свете), бенчмаркаются по различным задачам в кодинге и продаются как способные заменить программиста и обучаются в том числе и для этих задач.
К примеру, представленная здесь Gemini 2.5 - то, что используется в продаваемом гуглом Gemini Code Assist.
С сайта open-ai про GPT5:

As a coding collaborator, GPT‑5 tackles complex tasks end-to-end and delivers more readily usable code, better design, and is more effective at debugging.

https://openai.com/gpt-5/
На сайте грока пиарятся результатами с кодинг бенчмарков, с гита kimi-2

Trained with the Muon optimizer, Kimi K2 achieves exceptional performance across frontier knowledge, reasoning, and coding tasks while being meticulously optimized for agentic capabilities.

.
Все эти модели позиционируются и продаются как способные хорошо кодить.
Вы, это, хотя бы ~~нейросетку спросили~~ погуглили бы немного перед тем как писать.

Показать полностью

Матемаг Онлайн

16 ноября 2025

Ничего неожиданного, в общем-то... Выполняют своё предназначение: имитировать человеческий ответ (на которых и обучались). Люди на аналогичный вопрос тоже выдадут что угодно: с разбросом от полного бреда до рабочего варианта. Получается, имитация выполнена на отлично!

	Asteroid 16 ноября 2025
У меня есть знакомый, который кодит с нейросеткой. Говорит за пару часов пишет то, на что раньше пару дней уходило.

	Asteroid 16 ноября 2025
Так что сайт забавный, но ни о чём.

Lost-in-TARDIS Онлайн

16 ноября 2025

Матемаг
Ну, их обучают, чтобы имитировать хороший человеческий ответ. У людей будут другие ошибки, надо сказать.

Asteroid
Ну, на основе одной точки отвергать продемонстрированные ошибки нейросеток как-то всрато. (вопрос в профессиональной области знакомого и предыдущей квалификации)
У меня есть свои точки из людей с нейросетками, несколько больше одной, где результат как раз негативный, а также начинают появляться исследования, где вайб кодинг выигрыша по времени опытным программистам как раз не дает.

Asteroid

16 ноября 2025

Lost-in-TARDIS

Ну, на основе одной точки отвергать продемонстрированные ошибки нейросеток как-то всрато.

Нет. Я на основе одной точки делаю вывод, что концепция доказана. Потому что одна точка вполне показывает, что оно работает. Если не все способны научиться правильно работать с сетками - это их проблемы.

вайб кодинг выигрыша по времени опытным программистам как раз не дает

Вайб-кодинг - это вообще в другую сторону же. Там чел к клавиатуре, по сути, не прикасается - всё пишет и правит сетка.

	Матемаг Онлайн 16 ноября 2025
вайб кодинг выигрыша по времени опытным программистам как раз не дает Скоро и по деньгам не будет давать. В смысле, слышал, цены поднимаются, а лимиты на число запросов уменьшаются... Кажется, кто-то начинает экономить:)

	Lost-in-TARDIS Онлайн 16 ноября 2025
Asteroid Одна точка со все ещё не конкретизированными условиями ничего не доказывает. Так и гомеопатию можно доказать, а если не все способны научиться правильно её принимать - это их проблемы. 3

Lost-in-TARDIS Онлайн

16 ноября 2025

Asteroid
Да, надо сказать, я не поняла, какую концепцию вы доказываете-то? Я показываю, что нейросетки ошибаются и не нужно считать, что они всегда, молодцы, знают все и не ошибаются, что не нужно слепо их принимать на веру.
А какой у вас тезис?

Asteroid

16 ноября 2025

Lost-in-TARDIS

я не поняла, какую концепцию вы доказываете-то?

Очевидно, что то, что нейросети сильно ускоряют работу. И их ошибки не особо мешают.
Как бы, человек и сам склонен ошибаться, и надо проводить тестирование. Нейросети ничего особо в этом плане не меняют. Да, они тоже ошибаются, но плюсы больше минусов.

	Агрессивная колибри Автор 3, Иллюстратор 5
	dimik9961 Автор 1
	Noirechan Автор 1, Иллюстратор 1
	Manyasha2603 Автор 1
	Mr Puss Автор 3, Иллюстратор 5