Суперкомпьютер создал ИИ с 1 трлн параметров: понадобилось всего лишь 3000 процессоров
Суперкомпьютер Frontier оснащен 9 472 процессорами Epyc 7A53 и 37 888 графическими процессорами Radeon Instinct. Однако ученые использовали только 3072 графических процессора.
Исследователи из Национальной лаборатории Ок-Ридж (США) обучили большую языковую модель (БЯМ) наподобие ChatGPT при помощи суперкомпьютера Frontier. Для этого им потребовалось всего 3072 из 37 888 графических процессоров, передает Toms hardware.
Суперкомпьютер Frontier оснащен 9 472 процессорами Epyc 7A53 и 37 888 графическими процессорами Radeon Instinct. Однако ученые использовали только 3072 графических процессора для обучения БЯМ, которая располагает 1 трлн параметров и 1024 — для обучения другой нейросети со 175 млрд параметров.
Для обучения такого большого ИИ-бота необходим огромный объем памяти — минимум 14 Тб. Поэтому исследователи задействовали несколько графических процессоров MI250X с 64 Гб видеопамяти каждый, но это привело к новой проблеме: параллелизму. Использование большего количества графических процессоров в БЯМ требует лучшего взаимодействия для эффективного использования большего количества ресурсов. В противном случае вся мощность графического процессора будет потрачена впустую.
"Ученые решили данную проблему, использовав такие платформы, как Megatron-DeepSpeed и FSDP. В итоге результаты оказались весьма впечатляющими: при увеличении размера рабочей нагрузки больше графических процессоров использовались максимально эффективно", — сказано в материале.
ВажноОднако сильная эффективность масштабирования была немного ниже: 89% для нейросети с 175 млрд параметров и 87% для БЯМ с 1 трлн параметров. Сильное масштабирование подразумевает увеличение количества процессоров без изменения размера рабочей нагрузки, и, согласно закону Амдала, большее количество ядер становится менее полезным. Даже 87% — достойный результат, учитывая, сколько графических процессоров они использовали.
Команда также отметила некоторые проблемы с достижением такой эффективности на суперкомпьютере Frontier, заявив, что, в основном, алгоритмы машинного обучения в этом масштабе функционируют только в рамках аппаратно-программной экосистемы CUDA Nvidia, что делает решения AMD и Intel непригодными.
"Тем не менее, самым быстрым суперкомпьютером в мире по-прежнему остается Frontier, оснащенный процессорами AMD. На втором месте стоит Aurora с чипами от Intel. Графические процессоры Nvidia используются в третьем по скорости суперкомпьютере — Eagle. Если AMD и Intel хотят сохранить передовые позиции, им придется догнать программные решения Nvidia", — резюмировали авторы статьи.
Ранее мы писали о том, что самый быстрый суперкомпьютер в мире появится в 2024 году. Экзафлопсную машина JUPITER имеет все шансы стать лидером глобального рейтинга суперкомпьютеров TOP500.