Дослідники намагаються зрозуміти, чому системи штучного інтелекту так добре навчаються, використовуючи так мало даних.
Учені хочуть розкрити одну з найбільших таємниць мовних моделей ШІ, які використовуються в таких інструментах генерації тексту й зображень як DALL-E та ChatGPT. Експерти в галузі машинного навчання (МН) протягом деякого часу помічають щось дивне у великих мовних моделях (LLM), таких як GPT-3 від OpenAI і LaMDA від Google, а саме — обидві добре справляються із завданнями, для виконання яких їх не навчали. Незрозуміло, але це факт. Це приклад того, що в більшості випадків неможливо пояснити, як нейромережа досягає високих результатів, використовуючи мінімальну кількість даних, ідеться в матеріалі vice.com.
Як нейромережі вдається схоплювати інформацію на льоту
У дослідженні, опублікованому на сервері препринтів arXiv, учені з Массачусетського технологічного інституту (МТІ), Стенфордського університету й компанії Google намагаються дати оцінку цьому загадковому феномену, який називається "навчання в контексті". Зазвичай для виконання нового завдання більшість моделей МН необхідно перенавчити на нових даних. Цей процес вимагає від дослідників введення тисяч "точкових" даних, щоб отримати бажаний результат. Заняття стомливе та трудомістке. Але метод навчання в контексті дає ШІ-системі можливість навчитися швидко та коректно виконувати нові завдання, переглянувши заздалегідь кілька прикладів. По суті нейромережа освоює нові навички "на льоту". Отримавши підказку, мовна модель може взяти список вхідних і вихідних даних та створити нові, часто правильні прогнози для завдання, для якого вона не була навчена спеціально. Така поведінка дуже добре підходить для досліджень у галузі машинного навчання, і розуміння того, як і чому воно відбувається, може дати безцінну інформацію про те, як мовні моделі вивчають і зберігають інформацію.
Яка різниця між ШІ, який навчається, та ШІ, який просто запам'ятовує
"Навчання пов'язане зі здобутими знаннями, — говорить Екін Акюрек, провідний автор дослідження й аспірант МТІ. — Ми показуємо, що ці ШІ-моделі можуть навчатися на прикладах "у режимі реального часу" без оновлення параметрів, які ми зазвичай застосовуємо до моделі".
Це означає, що нейромережа не просто копіює навчальні дані, вона, швидше за все, спирається на попередні знання, як це роблять люди та тварини. Дослідники не перевіряли свою теорію за допомогою ChatGPT або інших популярних інструментів машинного навчання, якими останнім часом так захоплюються інтернет-користувачі. Натомість команда працювала з меншими моделями та простішими завданнями. Але оскільки вони є моделями того ж типу, їхня робота дає уявлення про пристрій інших аналогічних, але відоміших систем.
Дослідники провели експеримент, надавши ШІ синтетичні дані (підказки), які програма ніколи не зустрічала раніше та не могла б зустріти. Попри це мовна модель спромоглася узагальнити, а потім екстраполювати знання з них, сказав Акюрек. Учені висловили гіпотезу про те, що ШІ-моделі, що демонструють навчання в контексті, насправді створюють у собі дрібніші моделі для виконання нових завдань.
Дослідники змогли перевірити свою теорію, проаналізувавши роботу так званого перетворювача — нейронної мережі, яка застосовує концепцію самоуваги для відстеження взаємозв'язків у послідовних даних, таких як слова в реченні. Спостерігаючи за перетворювачем у дії, вчені виявили, що він може написати власну модель машинного навчання. Це свідчить, що як теоретично, так і емпірично мовні моделі можуть винаходити алгоритми навчання самостійно. Іншими словами, більші моделі працюють за рахунок створення та навчання більш дрібних і простих мовних моделей, що перебувають усередині них. Концепцію легше зрозуміти, якщо зобразити її у вигляді матрьошки.
Хоча Акюрек погоджується з тим, що такі мовні моделі, як GPT-3, відкриють нові можливості для науки, він вважає, що вони вже змінили спосіб вилучення й обробки інформації. Тоді як раніше під час введення підказки в Google з'являлася лише інформація, а люди повинні були вибирати самі ті дані, які краще підходять під їхній запит, тепер GPT може надавати інформацію з інтернету, а також обробляти її для користувачів. "Ось чому дуже важливо навчитися підказувати цим моделям варіанти даних, які ви хочете отримати", — наголосив учений.
Які загрози таїть у собі ШІ
Звісно, передача обробки інформації автоматизованим системам пов'язана з безліччю нових проблем. Дослідники етики ШІ неодноразово демонстрували, як системи на кшталт ChatGPT "висловлюються" некоректно, використовуючи сексизм і расизм, які важко пом'якшити й неможливо повністю усунути. Багато хто стверджує, що запобігти такій поведінці з боку нейромереж просто неможливо, особливо тоді, коли ШІ-моделі наближаються за розміром і складністю до чогось на зразок GPT-3.
Попри невизначеність щодо того, чого зможуть досягти моделі машинного навчання в майбутньому, і навіть щодо того, що вони можуть робити сьогодні, у дослідженні робиться висновок про те, що метод "навчання в контексті" можна використовувати для вирішення багатьох проблем, із якими, безперечно, зіткнуться дослідники.
Раніше ми повідомляли про те, що чат-бот ChatGPT відповів на запитання журналістів Фокусу, розповівши про те, як можна покращити пошукові системи та продемонструвавши своє знання української мови.