Диджитал

ИИ научили "видеть" картинки: нейросеть может описывать своими словами любое изображение

20.06.2023 в 11:45

Нейросеть может описывать "увиденные" картинки | Фото: Нейросеть

Эта технология пригодится для компаний, которым требуется обработка огромных массивов визуальных данных.

Компания LG представила свою свежую разработку в сфере искусственного интеллекта — Captioning AI. Она распознает элементы изображения и генерирует описания и ключевые слова, сообщает The Korea Times. Нейросеть представили на мероприятии Computer Vision and Pattern Recognition 2023 — крупнейшей в мире конференции по компьютерному зрению, которая прошла в Ванкувере (Канада).

Нейросеть основана на Zero-shot Image Captioning от LG AI Research, технологии, которая позволяет ИИ понимать и описывать объекты или сцены, которые он видит впервые, используя свой предыдущий опыт и знания, как это делают люди.

Captioning AI от LG поможет компаниям, которым нужно обрабатывать большой массив изображений

Фото: LG Electronics

Компания объяснила, что субтитры (текст или слова описания) AI отличаются от подобных нейросетей типа Midjourney, где пользователи сами вводят текст или вставляют файл изображения, а ИИ по запросу генерирует рисунок. В случае с генеративным ИИ от LG искусственный интеллект сам распознает визуальный контент и описывает то, что изображено. Получается, что Captioning AI обладает визуальным интеллектом и может делать выводы об изображениях, которые он раньше не видел. Например, он может смотреть на пейзаж или человека на изображении и определите его местоположение, говорят разработчики.

По словам исследователей, искусственный интеллект с субтитрами может генерировать текстовые описания и ключевые слова для 10 тыс. изображений менее чем за два дня, что может повысить эффективность работы и производительность компаний, которым необходимо управлять большими объемами изображений.

Ранее Фокус писал, что Google с помощью ИИ примерит на вас одежду: обещают, что найдется любой размер.