Діджитал

ChatGPT став "тупити" і гірше відповідати на запитання: вчені зі Стенфорда з'ясували причину

Дослідники провели спеціальні тести і дійшли висновку, що розробники почали економити на продуктивності чат-бота.

Група дослідників зі Стенфорда вивчила еволюцію чат-ботів від OpenAI та дійшла висновку, що ChatGPT справді став "дурнішим" за останні кілька місяців, йдеться в результатах проведених тестів. Ці наукові дослідження стали реакцією на скарги багатьох користувачів на офіційному форумі OpenAI, які нарікали на погані відповіді від мовної моделі ChatGPT-4 і чат-бота Bing від Microsoft, що працює на ній же.

Щоб визначити, чи стає ChatGPT кращим або гіршим з плином часу, дослідники використовували такі методи для оцінки його можливостей:

розв'язання математичних задач;
відповіді на делікатні/небезпечні запитання;
генерація коду;
візуальне мислення.

Відео дня

Дослідники підкреслили, що перераховані вище завдання були ретельно відібрані, щоб проаналізувати "різноманітні та корисні можливості цих LLM" (великих мовних моделей). Але пізніше вони визначили, що їхня продуктивність і поведінка були зовсім іншими та не в кращий бік.

Наприклад, GPT-4 у березневій версії дуже добре визначав прості числа (точність 97,6%), але вже з червневим оновленням GPT-4 дуже погано відповідав на ті самі запитання (точність 2,4%). Цікаво, що старий GPT-3.5 (версія за червень 2023 р.) у цьому завданні виявився набагато кращим, ніж GPT-3.5 (за березень 2023 р.). Виходить, що раніше розробники намагалися покращувати свого чат-бота, а тепер із кожним оновленням він стає дедалі гіршим.

порівнянняChatGРТ-3.5 і ChatGPT-4, еволюція ChatGPT — Як змінювалася з часом якість ChatGPT-3.5 і ChatGPT-4

Фото: мозг крысы

Як таку причину дослідники підозрюють OpenAI у спробі заощадити на витратах для функціонування ChatGPT, оскільки його обслуговування обходиться занадто дорого (за деякими даними до $700 тисяч на добу). Тому вони налаштовують нейромережу так, щоб вона давала відповіді тієї ж якості, але з меншою витратою ресурсів. Однак, як показали дослідження, економія виходить компанії боком — якість відповідей падає. Тож, на думку вчених, ChatGPT не став дурнішим, просто він став "дешевшим".

Дослідники Стенфорда кажуть, що подібні результати тестів демонструє, наскільки змінювалася поведінка GPT-3.5 і GPT-4 протягом відносно короткого проміжку часу. Це підкреслює необхідність постійної оцінки поведінки LLM у виробничих додатках. Вчені й надалі планують оновлювати результати, регулярно оцінюючи GPT-3.5, GPT-4 та інші LLM, відстежуючи їхню еволюцію.

Раніше Фокус розповідав, що ШІ навчився "ловити" злочинців за маршрутами авто. Нейромережа збирає дані з відеокамер і повідомляє правоохоронцям про підозрілі маршрути автовласників.

Останні новини

Більше новин