Суперкомпьютер создал ИИ с 1 трлн параметров: понадобилось всего лишь 3000 процессоров

Frontier, суперкомпьютер
Фото: Wikipedia | Суперкомпьютер Frontier: иллюстративное фото

Суперкомпьютер Frontier оснащен 9 472 процессорами Epyc 7A53 и 37 888 графическими процессорами Radeon Instinct. Однако ученые использовали только 3072 графических процессора.

Исследователи из Национальной лаборатории Ок-Ридж (США) обучили большую языковую модель (БЯМ) наподобие ChatGPT при помощи суперкомпьютера Frontier. Для этого им потребовалось всего 3072 из 37 888 графических процессоров, передает Toms hardware.

Суперкомпьютер Frontier оснащен 9 472 процессорами Epyc 7A53 и 37 888 графическими процессорами Radeon Instinct. Однако ученые использовали только 3072 графических процессора для обучения БЯМ, которая располагает 1 трлн параметров и 1024 — для обучения другой нейросети со 175 млрд параметров.

Для обучения такого большого ИИ-бота необходим огромный объем памяти — минимум 14 Тб. Поэтому исследователи задействовали несколько графических процессоров MI250X с 64 Гб видеопамяти каждый, но это привело к новой проблеме: параллелизму. Использование большего количества графических процессоров в БЯМ требует лучшего взаимодействия для эффективного использования большего количества ресурсов. В противном случае вся мощность графического процессора будет потрачена впустую.

"Ученые решили данную проблему, использовав такие платформы, как Megatron-DeepSpeed и FSDP. В итоге результаты оказались весьма впечатляющими: при увеличении размера рабочей нагрузки больше графических процессоров использовались максимально эффективно", — сказано в материале.

Важно
Суперкомпьютер, похожий на человеческий мозг, появится в 2024 году: что он умеет

Однако сильная эффективность масштабирования была немного ниже: 89% для нейросети с 175 млрд параметров и 87% для БЯМ с 1 трлн параметров. Сильное масштабирование подразумевает увеличение количества процессоров без изменения размера рабочей нагрузки, и, согласно закону Амдала, большее количество ядер становится менее полезным. Даже 87% — достойный результат, учитывая, сколько графических процессоров они использовали.

Команда также отметила некоторые проблемы с достижением такой эффективности на суперкомпьютере Frontier, заявив, что, в основном, алгоритмы машинного обучения в этом масштабе функционируют только в рамках аппаратно-программной экосистемы CUDA Nvidia, что делает решения AMD и Intel непригодными.

"Тем не менее, самым быстрым суперкомпьютером в мире по-прежнему остается Frontier, оснащенный процессорами AMD. На втором месте стоит Aurora с чипами от Intel. Графические процессоры Nvidia используются в третьем по скорости суперкомпьютере — Eagle. Если AMD и Intel хотят сохранить передовые позиции, им придется догнать программные решения Nvidia", — резюмировали авторы статьи.

Ранее мы писали о том, что самый быстрый суперкомпьютер в мире появится в 2024 году. Экзафлопсную машина JUPITER имеет все шансы стать лидером глобального рейтинга суперкомпьютеров TOP500.