Чат-бот Bing научился распознавать и анализировать фото: пока получается плохо (видео)
Взаимодействовать с нейросетью от Microsoft можно не только голосом или текстом, но и отправлять запросы загружая нужную фотографию.
В рамках свежего обновления своей системы Copilot для Microsoft 365, компания объявила о запуске новой функции, которую пока мало кто заметил. Как говорится в официальном блоге компании, теперь в чат-бот Bing, который основан на ChatGPT-4 от OpenAI, можно загружать собственные фотографии.
Чем хороша эта функция? Во-первых, при необходимости вы можете узнать все что угодно о загруженном фото. По крайней мере так обещает Microsoft. Во-вторых, загрузив фото вы сможете проиллюстрировать свой основной запрос к чат-боту и, по идее, он должен вас лучше понять и более корректно выполнить поставленную вами задачу.
Например, если пользователи видят картину и задаются вопросом, кто ее нарисовал, они могут просто загрузить фотографию и спросить чат-бот Bing, про автора картины и историю ее написания.
Кстати, подобная интеграция текста, голоса и фото – первый случай мультимодальности GPT-4. Только в Bing все три возможности объединены в единый интерфейс, а в том же ChatGPT Plus (платной версии чат-бота от OpenAI) пользователи пока лишены такого удобства.
Что ж, Фокус решил проверить, как работает функция распознавания фото в чат-боте Bing и, честно говоря, мы были разочарованы. Для примера мы взяли известную фотографию Владимира Зеленского рядом со сбитым дроном Shahed-136. Несмотря на то, что файл был назван "Сбитый дрон Shahed-136 Владимир Зеленский", что давало ИИ прямую подсказу, чат-бот обозвал Президента Украины "реалистичным изображением человека", а лежащий рядом дрон "упавшей статуей". Зато он смог сделать вывод "о легком материале статуи", т.к. конструкция смялась. Это действительно интересно.
Во втором тесте мы "скормили" чат-боту Bing известную картину Ивана Айвазовского "Раздача продовольствия" (картина посвящена тому, как США спасали Россию от голода в 1891 году). Тут чат-бот совсем опозорился – не узнал классику. Bing Chat предположил, что это "площадь где-то в Люцерне, а сине-белый флаг символизирует давнюю историю города".
"Третий раз закинул Фокус невод загрузил фотографию" с самым известным портретом в мире. К счастью, теперь чат-бот распознал Мону Лизу и выдал все данные из доступных энциклопедий.
Искусственный интеллект только развивается, но, судя по всему, Microsoft слишком торопится с внедрением новых функций в свой Bing Chat. Вероятно, это связано с высокой конкуренцией, ведь Google недавно объявил, что внедряет подобный сервис Google Lens в свой чат-бот Bard, который уже доступен украинцам.
Ранее Фокус рассказывал, что эксперт сравнил два инструмента генеративного ИИ. Он пытался выяснить, кто лучше "рисует": Bing или Dall-E.