Чат-бот Bing навчився розпізнавати й аналізувати фото: поки виходить погано (відео)
Взаємодіяти з нейромережею від Microsoft можна не тільки голосом або текстом, а й надсилати запити, завантажуючи потрібну фотографію.
У межах свіжого оновлення своєї системи Copilot для Microsoft 365, компанія оголосила про запуск нової функції, яку поки мало хто помітив. Як ідеться в офіційному блозі компанії, тепер у чат-бот Bing, який заснований на ChatGPT-4 від OpenAI, можна завантажувати власні фотографії.
Чим хороша ця функція? По-перше, за потреби ви можете дізнатися все що завгодно про завантажене фото. Принаймні так обіцяє Microsoft. По-друге, завантаживши фото, ви зможете проілюструвати свій основний запит до чат-бота, і, за ідеєю, він має вас краще зрозуміти та коректніше виконати поставлене вами завдання.
Наприклад, якщо користувачі бачать картину і задаються питанням, хто її намалював, вони можуть просто завантажити фотографію і запитати чат-бот Bing, про автора картини та історію її написання.
До речі, подібна інтеграція тексту, голосу і фото — перший випадок мультимодальності GPT-4. Тільки в Bing всі три можливості об'єднані в єдиний інтерфейс, а в тому ж ChatGPT Plus (платній версії чат-бота від OpenAI) користувачі поки позбавлені такої зручності.
Що ж, Фокус вирішив перевірити, як працює функція розпізнавання фото в чат-боті Bing і, чесно кажучи, ми були розчаровані. Для прикладу ми взяли відому фотографію Володимира Зеленського поруч зі збитим дроном Shahed-136. Попри те, що файл було названо "Збитий дрон Shahed-136 Володимир Зеленський", що давало ШІ пряму підказку, чат-бот обізвав Президента України "реалістичним зображенням людини", а дрон, який лежить поруч, — "статуєю, що впала". Зате він зміг зробити висновок "про легкий матеріал статуї", оскільки конструкція зім'ялася. Це дійсно цікаво.
У другому тесті ми "згодували" чат-боту Bing відому картину Івана Айвазовського "Роздача продовольства" (картина присвячена тому, як США рятували Росію від голоду в 1891 році). Тут чат-бот зовсім зганьбився — не впізнав класику. Bing Chat припустив, що це "площа десь у Люцерні, а синьо-білий прапор символізує давню історію міста".
"Третій раз закинув Фокус невід завантажив фотографію" з найвідомішим портретом у світі. На щастя, тепер чат-бот розпізнав Мону Лізу і видав усі дані з доступних енциклопедій.
Штучний інтелект тільки розвивається, але, судячи з усього, Microsoft занадто поспішає з впровадженням нових функцій у свій Bing Chat. Ймовірно, це пов'язано з високою конкуренцією, адже Google нещодавно оголосив, що впроваджує подібний сервіс Google Lens у свій чат-бот Bard, який уже доступний українцям.
Раніше Фокус розповідав, що експерт порівняв два інструменти генеративного ШІ. Він намагався з'ясувати, хто краще "малює": Bing або Dall-E.