Диджитал

ChatGPT стал "тупить" и хуже отвечать на вопросы: ученые из Стэнфорда выяснили причину

Исследователи провели специальные тесты и пришли к выводу, что разработчики начали экономить на производительности чат-бота.

Группа исследователей из Стэнфорда изучила эволюции чат-ботов от OpenAI и пришла к выводу, что ChatGPT действительно стал "глупее" за последние несколько месяцев, говорится в результатах проведенных тестов. Эти научные изыскания стали реакцией на жалобы многих пользователей на официальном форуме OpenAI, которые сетовали на плохие ответы от языковой модели ChatGPT-4 и чат-бота Bing от Microsoft, работающего на ней же.

Чтобы определить, становится ли ChatGPT лучше или хуже с течением времени, исследователи использовали следующие методы для оценки его возможностей:

решение математических задач;
ответы на деликатные/опасные вопросы;
генерация кода;
визуальное мышление.

Исследователи подчеркнули, что перечисленные выше задачи были тщательно отобраны, чтобы проанализировать "разнообразные и полезные возможности этих LLM" (больших языковых моделей). Но позже они определили, что их производительность и поведение были совершенно другими и не в лучшую сторону.

Например, GPT-4 в мартовской версии очень хорошо определял простые числа (точность 97,6%), но уже с июньским обновлением GPT-4 очень плохо отвечал на те же вопросы (точность 2,4%). Интересно, что старый GPT-3.5 (версия за июнь 2023 г.) в этой задаче оказался намного лучше, чем GPT-3.5 (за март 2023 г.). Получается, что раньше разработчики старались улучшать своего чат-бота, а теперь с каждым обновлением он становится все хуже.

сравнениеChatGPT-3.5 и ChatGPT-4, эволюция ChatGPT — Как изменялось со временем качество ChatGPT-3.5 и ChatGPT-4

Фото: Stanford University

В качестве такой причины исследователи подозревают OpenAI в попытке сэкономить на затратах для функционирования ChatGPT, так как его обслуживание обходится слишком дорого (по некоторым данным до $700 тысяч в сутки). Поэтому они настраивают нейросеть так, чтобы она давала ответы того же качества, но с меньшей затратой ресурсов. Однако как показали исследования, экономия выходит компании боком – качество ответов падает. Так что, по мнению ученых, ChatGPT не стал глупее, просто он стал "дешевле".

Исследователи Стэнфорда говорят, что подобные результаты тестов демонстрирует, насколько менялось поведение GPT-3.5 и GPT-4 в течение относительно короткого промежутка времени. Это подчеркивает необходимость постоянной оценки поведения LLM в производственных приложениях. Ученые и дальше планируют обновлять результаты, регулярно оценивая GPT-3.5, GPT-4 и другие LLM, отслеживая их эволюцию.

Ранее Фокус рассказывал, что ИИ научился "ловить" преступников по маршрутам авто. Нейросеть собирает данные с видеокамер и сообщает правоохранителям о подозрительных маршрутах автовладельцев.