![]() |
сегодня в 08:16
|
Ногa
Почитал статью, посмотрел отсылки на другой тест под названием Spiral Bench и его результаты. Похоже, все эти "рейтинги", которые они строят, достаточно условны и мало что значат вне пределов и условий конкретного эксперимента. Согласно этой статье Kimi-K2 ведёт себя лучше всего, согласно Spiral Bench - обычный середнячок. То есть немного меняем процедуру теста, меняем симулирующий подопытного алгоритм (в Spiral Bench им был как раз Kimi-K2) - и оказывается, что эти цифры ничего особенного не значат. Так что не стоит слишком сильно верить в эти "однозначно худший". Иногда да, иногда нет. Слишком большая вариативность. |