ИИ не то, чем кажется: ученые сделали умопомрачительное открытие о работе нейросетей
Исследователи пытаются понять, почему системы искусственного интеллекта так хорошо учатся, используя так мало данных.
Ученые хотят раскрыть одну из самых больших тайн языковых моделей ИИ, которые используются в таких инструментах генерации текста и изображений, как DALL-E и ChatGPT. Эксперты в области машинного обучения (МО) на протяжение некоторого времени замечают нечто странное в больших языковых моделях (LLM), таких как GPT-3 от OpenAI и LaMDA от Google, а именно — обе хорошо справляются с задачами, для выполнения которых их не обучали. Необъяснимо, но это факт. Это пример того, что в большинстве случаев невозможно объяснить, как нейросеть достигает высоких результатов, используя минимальное количество данных, говорится в материале vice.com.
Как нейросети удается схватывать информацию на лету
В исследовании, опубликованном на сервере препринтов arXiv, ученые из Массачусетского технологического института (МТИ), Стэнфордского университета и компании Google пытаются дать оценку этому загадочному феномену, который называется "обучение в контексте". Обычно для выполнения новой задачи большинство моделей МО необходимо переобучить на новых данных. Этот процесс требует от исследователей ввода тысяч "точечных" данных, чтобы получить желаемый результат. Занятие утомительное и трудоемкое. Но метод обучения в контексте дает ИИ-системе возможность научиться быстро и корректно выполнять новые задачи, просмотрев предварительно несколько примеров. По сути, нейросеть осваивает новые навыки "на лету". Получив подсказку, языковая модель может взять список входных и выходных данных и создать новые, часто правильные прогнозы для задачи, для которой она не была специально обучена. Такое поведение очень хорошо подходит для исследований в области машинного обучения, и понимание того, как и почему оно происходит, может дать бесценную информацию о том, как языковые модели изучают и хранят информацию.
Какая разница между ИИ, который учится, и ИИ, который просто запоминает
"Обучение связано с полученными знаниями", — говорит Экин Акюрек, ведущий автор исследования и аспирант МТИ. "Мы показываем, что эти ИИ-модели могут учиться на примерах "в режиме реального времени" без какого-либо обновления параметров, которые мы обычно применяем к модели".
Это означает, что нейросеть не просто копирует обучающие данные, она, скорее всего, опирается на предыдущие знания, как это делают люди и животные. Исследователи не проверяли свою теорию с помощью ChatGPT или каких-либо других популярных инструментов машинного обучения, которыми в последнее время так восхищаются интернет-пользователи. Вместо этого команда работала с меньшими моделями и более простыми задачами. Но поскольку они представляют собой модели того же типа, их работа дает представление об устройстве других аналогичных, но более известных систем.
Исследователи провели эксперимент, предоставив ИИ синтетические данные (подсказки), которые программа никогда не встречала ранее и не могла бы встретить. Несмотря на это, языковая модель смогла обобщить, а затем экстраполировать знания из них, сказал Акюрек. Ученые высказали гипотезу о том, что ИИ-модели, демонстрирующие обучение в контексте, на самом деле создают внутри себя более мелкие модели для выполнения новых задач.
Исследователи смогли проверить свою теорию, проанализировав работу так называемого преобразователя — нейронной сети, которая применяет концепцию "самовнимания" для отслеживания взаимосвязей в последовательных данных, таких как слова в предложении. Наблюдая за преобразователем в действии, ученые обнаружили, что он может написать собственную модель машинного обучения. Это говорит о том, что как теоретически, так и эмпирически языковые модели могут изобретать алгоритмы обучения самостоятельно. Иными словами, более крупные модели работают за счет создания и обучения более мелких и простых языковых моделей, находящихся внутри них. Концепцию легче понять, если представить ее в виде матрешки.
Хотя Акюрек согласен с тем, что такие языковые модели, как GPT-3, откроют новые возможности для науки, он считает, что они уже изменили способ извлечения и обработки информации. В то время как ранее при вводе подсказки в Google появлялась одна лишь информация, а люди должны были выбирать сами те данные, которые лучше подходят под их запрос, теперь GPT может предоставлять информацию из Интернета, а также обрабатывать ее для пользователей. "Вот почему очень важно научиться подсказывать этим моделям варианты данных, которые вы хотите получить", — подчеркнул ученый.
Какие угрозы таит в себе ИИ
Конечно, передача обработки информации автоматизированным системам связана со множеством новых проблем. Исследователи этики ИИ неоднократно демонстрировали, как системы вроде ChatGPT "высказываются" некорректно, используя сексизм и расизм, которые трудно смягчить и невозможно полностью устранить. Многие утверждают, что предотвратить такое поведение со стороны нейросетей просто невозможно, особенно тогда когда ИИ-модели приближаются по размеру и сложности к чему-то вроде GPT-3.
Несмотря на неопределенность в отношении того, чего смогут достичь модели машинного обучения в будущем, и даже в отношении того, что они могут делать сегодня, в исследовании делается вывод о том, что метод "обучение в контексте" может использоваться для решения многих проблем, с которыми, несомненно, столкнутся исследователи.
Ранее мы сообщали о том, что чат-бот ChatGPT ответил на вопросы журналистов Фокуса, рассказав о том, как можно улучшить поисковые системы и продемонстрировав свое знание украинского языка.