Разделы
Материалы

100 000 процессоров: как работает первый в мире ИИ-суперкомпьютер xAI Colossus (видео)

Олеся Дерзская
Фото: YouTube | ИИ-кластер xAI Colossus

Colossus несет ответственность за обучение различных моделей ИИ для компании X (ранее Twitter). В первую очередь он обслуживает чат-бот Grok 3, доступный только подписчикам X Premium.

Новый дорогостоящий проект Илона Маска, суперкомпьютер xAI Colossus AI, был впервые представлен в деталях. Об этом пишет Tom’s Hardware.

YouTubе-канал ServeTheHome получил доступ к серверам и заснял несколько частей сервера, давая возможность увидеть его работу. Устройство получило серверы GPU — Nvidia HGX H100, содержащие по восемь GPU H100 каждый. Платформа HGX H100 упакована в универсальную систему жидкостного охлаждения GPU 4U от Supermicro. Серверы загружаются в стойки, — 64 GPU на стойку. Коллекторы 1U находятся между каждым HGX H100, обеспечивая жидкостное охлаждение, необходимое серверам. Внизу каждой стойки расположен еще один блок Supermicro 4U, на этот раз с резервной насосной системой и системой мониторинга стойки.

Стойки объединены в группы по восемь, что составляет 512 графических процессоров на массив. Каждый сервер имеет четыре резервных источника питания, а задняя часть стоек графических процессоров показывает 3-фазные источники питания, коммутаторы Ethernet и коллектор размером со стойку, обеспечивающий все жидкостное охлаждение.

В кластере Colossus находится более 1500 стоек графических процессоров, или около 200 массивов стоек. По словам генерального директора Nvidia Дженсена Хуанга, графические процессоры для этих 200 массивов были полностью установлены всего за три недели.

Каждый сервер HGX H100 обрабатывает информацию в объеме 3,6 терабит в секунду. Весь кластер работает на Ethernet, а не на InfiniBand или других соединениях, которые являются стандартными в области суперкомпьютеров.

Суперкомпьютер xAI Colossus является крупнейшим суперкомпьютером ИИ в мире, заявляют в Nvidia. Многие суперкомпьютеры используют разные компании и НИИ, а вот Colossus несет ответственность за обучение различных моделей ИИ для компании X (ранее Twitter). В первую очередь он обслуживает чат-бот Grok 3, доступный только подписчикам X Premium. ServeTheHome также сообщили, что Colossus обучает ИИ "будущего" — модели, использование и возможности которых предположительно выходят за рамки возможностей сегодняшнего флагманского ИИ.

Первая фаза строительства Colossus завершена, и кластер полностью запущен, но еще не все готово. Суперкомпьютер Memphis скоро будет модернизирован, чтобы удвоить свою мощность GPU, добавив 50 000 дополнительных H100 GPU и 50 000 следующего поколения H200 GPU.

Это также более чем удвоит его энергопотребление, которое уже слишком много для 14 дизельных генераторов Маска, добавленных на площадку в июле. Это также не дотягивает до обещания Маска о 300 000 H200 внутри Colossus, хотя это может стать третьей фазой модернизации.

Суперкомпьютер xAI Colossus

Суперкомпьютер Cortex с 50 000 графических процессоров на заводе Tesla "Giga Texas" также принадлежит компании Маска. Cortex занимается обучением технологии беспилотного ИИ Tesla только с помощью камеры и обнаружения изображений, а также автономных роботов Tesla и других проектов ИИ.

Tesla также скоро увидит строительство суперкомпьютера Dojo в Буффало, штат Нью-Йорк, проект стоимостью 500 миллионов долларов. Поскольку отраслевые спекулянты, такие как генеральный директор Baidu Робин Ле, предсказывают, что 99% компаний ИИ рухнут, когда пузырь лопнет, еще предстоит увидеть, окупятся ли рекордные расходы Маска на ИИ или же дадут обратный эффект.

Напомним, Microsoft сотрудничает с Atom Computing для создания самого мощного в мире квантового суперкомпьютера, который также будет доступен для коммерческого использования.

Также сообщалось, что группа ученых под руководством Google представила новые доказательства того, что на современных квантовых устройствах среднего масштаба можно запускать производительные схемы, недостижимые для классических вычислительных систем.