|
Для ориентира.
... Сколько стоит развертывание ИИ мощностей? ОтсюдаДостаточно противоречивые оценки в зависимости от источника, но Хуанг и операционный директор OpenAI склоняются к $50 млрд и выше в расчете на 1 ГВт мощности. Решил оценить распределение расходов и понять, что включено в стоимость. Расчеты очень приблизительные, но позволяют оценить структуру распределения стоимости. Сейчас рыночная цена одного вычислительного кластера на базе самого современного чипа Blackwell GB300 стоит около 4.5 млн долларов, где стоимость самих чипов и NVlink около 3.5 млн, а остальное – сетевая, энергетическая и инфраструктурная «обвязка». Система включает 72 GPU Blackwell (36 суперчипов GB200, каждый с 2 GPU), 36 CPU Grace и инфраструктуру NVLink для соединения всех компонентов, сетевое оборудование InfiniBand, коммутаторы Spectrum-X800, DPU BlueField-3, кабельная система и блоки питания, система охлаждения, компоненты самой стойки и распределительных энергосистем с учетом мониторинга и систем защиты, далее система маршрутизации, виртуализации и хранения данных. Каждая такая система весит около 1.5 тонн минимум с учетом вспомогательного оборудования и нормализованное потребление с постоянной нагрузкой около 120-132 кВт. Производительность одного вычислительного кластера 360 петафлопс FP16, 5800 терафлопс FP32 и 2900 терафлопс FP64. Если сравнить с игровой видеокартой RTX 5090 по цене 2 тыс баксов, по FP32 и FP64 производительность кластера выше всего в 55 раз, однако в специализированных ИИ вычислениях и тензорной производительности разница в среднем в 500 раз, а пропуская способность NVlink выше в 1000 раз. В сопоставимой ИИ производительности система на базе RTX 5090 обойдется примерно в 2 млн долларов, но проиграет по площади развертывания и главное – по межядерному взаимодействию. Напрямую сравнить нельзя. Во-первых, память у кластера 13.4 ТБ HBM3e и 576 ТБ/с у NVL72 против 32 ГБ и 1.8 ТБ/с у RTX 5090, т.е. разрыв свыше 320 раз в пользу кластера. Интерконнект NVL72 у вычислительного кластера имеет пропускную способность в 130 ТБ/с, а масштабирование игрового GPU ограничено PCIe и NVLink-мостами прошлых поколений, что несопоставимо. Слабое архитектурное звено гражданских RTX 5090 – память и межчиповое взаимодействие через интерконнект NVlink, что приведет к тому, что вычислительный чип будет простаивать, ожидая отклика в обмене данных, снижая КПД системы. Для LLM-нагрузок определяющими будут не производительность в FP32-64, как в экосистеме Windows/Linux совместимых приложений, а FP8/FP4 Tensor (в основном для инференса), при обучении LLM доминируют BF16/FP16 и FP8 в смешанных схемах, имеют значение пропускная способность между GPU и HBM памятью. Поэтому при реальных ИИ-задачах разрыв между кластерами и RTX 5090 обычно сотни раз и растет с размером модели. В ИИ фабрике в расчете на 1 ГВт входной мощности на вычислительные кластеры с учетом систем хранения данных приходится примерно 75-77% потребления всей энергии, еще 15% идет на работу систем охлаждения, кондиционирование и обеспечение насосных станция для водоснабжения, 5% - системы питания, а 2-3% - освещение, административный корпус, мониторинг и управление. Получается, что в расчете на 1 ГВт мощности (по собственным оценкам): • Около 6100-6300 вычислительных кластеров стоимостью от $28 млрд + 5 млрд обслуживающее ИТ оборудование. • Подготовка земли, разработка проекта, сертификация – $0.5-1 млрд в зависимости от места. • Полный комплекс всех сооружений, модулей и корпусов ИИ фабрики, в том числе инженерная инфраструктура ЦОД (здание, электрика, UPS, охлаждение) с учетом особого уровня ИТ оборудования для «капризных» ИИ кластеров стоимостью около $8-12 млрд в зависимости от сложности и места проекта. • Электростанция (ТЭЦ) с учетом электроподстанций, трансформаторов, электросетей, сопряженной энергоинфраструктуры и подсоединения к сетям около $3 млрд в расчете на 1 Гвт мощности. • Внешняя промышленная инфраструктура – водные резервуары, телеком магистрали, резервы топлива, транспортная инфраструктура еще около $1-2 млрд. Продолжение следует... При этом срок эксплуатации этих самых кластеров оценивается в 2-4 года. С одной стороны, (моральное) устаревание, а с другой - довольно быстрая деградация собственно электроники и характерная форма графика роста частоты отказов от срока эксплуатации. Эх, капексы не бьются... #ai #заклёпки #ии #цитаты #экономика_спгс 10 ноября в 10:57
3 |