Розділи
Матеріали

Популярний GPT-4 використовує технології 30-річної давності: стали відомі й інші таємниці

Фото: Getty | GPT-4 Сема Альтмана ґрунтується на технологіях, які використовувала ще Google

Відомий колишній хакер, який першим зламав iPhone і Sony Playstation 3, поділився секретами найвідомішого чат-бота на планеті.

Виявляється, мовна модель GPT-4, яку розробила OpenAI, має розмір 1,76 трлн параметрів і використовує технологію 30-річної давнини, повідомляє The Decoder. GPT-4 заснований на восьми моделях, кожна з яких має 220 млрд параметрів, які пов'язані в архітектурі Mixture of Experts (MoE). Цій ідеї майже 30 років, і вона вже використовувалася для великих мовних моделей, таких як Google Switch Transformer.

Інформація про GPT-4 походить від Джорджа Хотца, засновника Comma.ai, стартапу з автономного водіння. Хотц — експерт зі штучного інтелекту, який також відомий своїм хакерським минулим: він першим зламав iPhone і Sony Playstation 3.

Інші експерти зі штучного інтелекту також прокоментували стрічку Хотца у твіттері, заявивши, що його інформація, найімовірніше, правильна.

Експерти зі штучного інтелекту підтвердили слова Хотца
Фото: Скриншот

Модель MoE є типом ансамблевого навчання, який об'єднує різні моделі, названі "експертами", для ухвалення рішення. У моделі MoE шлюзова мережа визначає вагу вихідних даних кожного "експерта" на основі вхідних даних. Це дозволяє різним "експертам" спеціалізуватися на різних частинах вхідного простору. Ця архітектура особливо корисна для великих і складних наборів даних, оскільки вона може ефективно розділити проблемний простір на простіші підпростори.

Архітектура, можливо, спростила навчання GPT-4, дозволивши різним командам працювати в різних частинах мережі. Це також пояснює, чому OpenAI змогла розробити мультимодальні можливості GPT-4 незалежно від доступного наразі продукту і випустити їх окремо.

Хотц також припустив, що GPT-4 видає не один результат, а ітеративно 16 результатів, які поліпшуються з кожною ітерацією. Спільнота розробників відкритого вихідного коду тепер може спробувати відтворити цю архітектуру; ідеї та технології були доступні протягом деякого часу. Проте GPT-4, можливо, показав, наскільки далеко може зайти архітектура MoE з правильними навчальними даними та обчислювальними ресурсами.

Раніше Фокус писав, що Папа Римський випустив правила щодо використання ШІ: про що в них ідеться?