Розділи
Матеріали

ChatGPT став "тупити" і гірше відповідати на запитання: вчені зі Стенфорда з'ясували причину

Пилип Бойко
Фото: zdnet.com | На думку вчених Стенфорда, OpenAI стала занадто економити на своєму ChatGPT-4

Дослідники провели спеціальні тести і дійшли висновку, що розробники почали економити на продуктивності чат-бота.

Група дослідників зі Стенфорда вивчила еволюцію чат-ботів від OpenAI та дійшла висновку, що ChatGPT справді став "дурнішим" за останні кілька місяців, йдеться в результатах проведених тестів. Ці наукові дослідження стали реакцією на скарги багатьох користувачів на офіційному форумі OpenAI, які нарікали на погані відповіді від мовної моделі ChatGPT-4 і чат-бота Bing від Microsoft, що працює на ній же.

Щоб визначити, чи стає ChatGPT кращим або гіршим з плином часу, дослідники використовували такі методи для оцінки його можливостей:

  • розв'язання математичних задач;
  • відповіді на делікатні/небезпечні запитання;
  • генерація коду;
  • візуальне мислення.

Дослідники підкреслили, що перераховані вище завдання були ретельно відібрані, щоб проаналізувати "різноманітні та корисні можливості цих LLM" (великих мовних моделей). Але пізніше вони визначили, що їхня продуктивність і поведінка були зовсім іншими та не в кращий бік.

Наприклад, GPT-4 у березневій версії дуже добре визначав прості числа (точність 97,6%), але вже з червневим оновленням GPT-4 дуже погано відповідав на ті самі запитання (точність 2,4%). Цікаво, що старий GPT-3.5 (версія за червень 2023 р.) у цьому завданні виявився набагато кращим, ніж GPT-3.5 (за березень 2023 р.). Виходить, що раніше розробники намагалися покращувати свого чат-бота, а тепер із кожним оновленням він стає дедалі гіршим.

Як змінювалася з часом якість ChatGPT-3.5 і ChatGPT-4
Фото: мозг крысы

Як таку причину дослідники підозрюють OpenAI у спробі заощадити на витратах для функціонування ChatGPT, оскільки його обслуговування обходиться занадто дорого (за деякими даними до $700 тисяч на добу). Тому вони налаштовують нейромережу так, щоб вона давала відповіді тієї ж якості, але з меншою витратою ресурсів. Однак, як показали дослідження, економія виходить компанії боком — якість відповідей падає. Тож, на думку вчених, ChatGPT не став дурнішим, просто він став "дешевшим".

Дослідники Стенфорда кажуть, що подібні результати тестів демонструє, наскільки змінювалася поведінка GPT-3.5 і GPT-4 протягом відносно короткого проміжку часу. Це підкреслює необхідність постійної оцінки поведінки LLM у виробничих додатках. Вчені й надалі планують оновлювати результати, регулярно оцінюючи GPT-3.5, GPT-4 та інші LLM, відстежуючи їхню еволюцію.

Раніше Фокус розповідав, що ШІ навчився "ловити" злочинців за маршрутами авто. Нейромережа збирає дані з відеокамер і повідомляє правоохоронцям про підозрілі маршрути автовласників.