Популярный GPT-4 использует технологии 30-летней давности: стали известны и другие тайны
Известный бывший хакер, который первым взломал iPhone и Sony Playstation 3, поделился секретами самого известного чат-бота на планете.
Оказывается, языковая модель GPT-4, которую разработала OpenAI, имеет размер 1,76 трлн параметров и использует технологию 30-летней давности, сообщает The Decoder. GPT-4 основан на восьми моделях, каждая из которых имеет 220 млрд параметров, которые связаны в архитектуре Mixture of Experts (MoE). Этой идее почти 30 лет, и она уже использовалась для больших языковых моделей, таких как Google Switch Transformer.
Информация о GPT-4 исходит от Джорджа Хотца, основателя Comma.ai, стартапа по автономному вождению. Хотц — эксперт по искусственному интеллекту, который также известен своим хакерским прошлым: он первым взломал iPhone и Sony Playstation 3.
Другие эксперты по искусственному интеллекту также прокомментировали ленту Хотца в Твиттере, заявив, что его информация, скорее всего, верна.
Модель MoE представляет собой тип ансамблевого обучения, который объединяет различные модели, называемые "экспертами", для принятия решения. В модели MoE шлюзовая сеть определяет вес выходных данных каждого "эксперта" на основе входных данных. Это позволяет разным "экспертам" специализироваться на разных частях входного пространства. Эта архитектура особенно полезна для больших и сложных наборов данных, так как она может эффективно разделить проблемное пространство на более простые подпространства.
Архитектура, возможно, упростила обучение GPT-4, позволив разным командам работать в разных частях сети. Это также объясняет, почему OpenAI смогла разработать мультимодальные возможности GPT-4 независимо от доступного в настоящее время продукта и выпустить их отдельно.
Хотц также предположил, что GPT-4 выдает не один результат, а итеративно 16 результатов, которые улучшаются с каждой итерацией. Сообщество разработчиков открытого исходного кода теперь может попытаться воспроизвести эту архитектуру; идеи и технологии были доступны в течение некоторого времени. Тем не менее GPT-4, возможно, показал, насколько далеко может зайти архитектура MoE с правильными обучающими данными и вычислительными ресурсами.
Ранее Фокус писал, что Папа Римский выпустил правила по использованию ИИ: о чем в них говорится?