100 000 процесорів: як працює перший у світі ШІ-суперкомп'ютер xAI Colossus (відео)
Colossus несе відповідальність за навчання різних моделей ШІ для компанії X (раніше Twitter). Насамперед він обслуговує чат-бот Grok 3, доступний тільки передплатникам X Premium.
Новий дорогий проєкт Ілона Маска, суперкомп'ютер xAI Colossus AI, було вперше представлено в деталях. Про це пише Tom's Hardware.
YouТube-канал ServeTheHome отримав доступ до серверів і зняв кілька частин сервера, даючи можливість побачити його роботу. Пристрій отримав сервери GPU — Nvidia HGX H100, що містять по вісім GPU H100 кожен. Платформа HGX H100 упакована в універсальну систему рідинного охолодження GPU 4U від Supermicro. Сервери завантажуються в стійки, — 64 GPU на стійку. Колектори 1U знаходяться між кожним HGX H100, забезпечуючи рідинне охолодження, необхідне серверам. Внизу кожної стійки розташований ще один блок Supermicro 4U, цього разу з резервною насосною системою і системою моніторингу стійки.
Стійки об'єднані в групи по вісім, що становить 512 графічних процесорів на масив. Кожен сервер має чотири резервних джерела живлення, а задня частина стійок графічних процесорів показує 3-фазні джерела живлення, комутатори Ethernet і колектор розміром зі стійку, що забезпечує все рідинне охолодження.
У кластері Colossus знаходиться понад 1500 стійок графічних процесорів, або близько 200 масивів стійок. За словами генерального директора Nvidia Дженсена Хуанга, графічні процесори для цих 200 масивів були повністю встановлені всього за три тижні.
Кожен сервер HGX H100 обробляє інформацію в обсязі 3,6 терабіт на секунду. Увесь кластер працює на Ethernet, а не на InfiniBand чи інших з'єднаннях, що є стандартними в галузі суперкомп'ютерів.
Суперкомп'ютер xAI Colossus є найбільшим суперкомп'ютером ШІ у світі, заявляють у Nvidia. Багато суперкомп'ютерів використовують різні компанії та НДІ, а ось Colossus несе відповідальність за навчання різних моделей ШІ для компанії X (раніше Twitter). Насамперед він обслуговує чат-бот Grok 3, доступний тільки передплатникам X Premium. ServeTheHome також повідомили, що Colossus навчає ШІ "майбутнього" — моделі, використання і можливості яких, імовірно, виходять за рамки можливостей сьогоднішнього флагманського ШІ.
Перша фаза будівництва Colossus завершена, і кластер повністю запущений, але ще не все готово. Суперкомп'ютер Memphis скоро буде модернізовано, щоб подвоїти свою потужність GPU, додавши 50 000 додаткових H100 GPU і 50 000 наступного покоління H200 GPU.
Це також більш ніж подвоїть його енергоспоживання, яке вже занадто багато для 14 дизельних генераторів Маска, доданих на майданчик у липні. Це також не дотягує до обіцянки Маска про 300 000 H200 всередині Colossus, хоча це може стати третьою фазою модернізації.
Суперкомп'ютер Cortex з 50 000 графічних процесорів на заводі Tesla "Giga Texas" також належить компанії Маска. Cortex займається навчанням технології безпілотного ШІ Tesla тільки за допомогою камери і виявлення зображень, а також автономних роботів Tesla та інших проєктів ШІ.
Tesla також скоро побачить будівництво суперкомп'ютера Dojo в Буффало, штат Нью-Йорк, проєкт вартістю 500 мільйонів доларів. Оскільки галузеві спекулянти, такі як генеральний директор Baidu Робін Ле, пророкують, що 99% компаній ШІ заваляться, коли бульбашка лопне, ще треба буде побачити, чи окупляться рекордні витрати Маска на ШІ, чи дадуть зворотний ефект.
Нагадаємо, Microsoft співпрацює з Atom Computing для створення найпотужнішого у світі квантового суперкомп'ютера, який також буде доступний для комерційного використання.
Також повідомлялося, що група вчених під керівництвом Google представила нові докази того, що на сучасних квантових пристроях середнього масштабу можна запускати продуктивні схеми, недосяжні для класичних обчислювальних систем.