Эта технология пригодится для компаний, которым требуется обработка огромных массивов визуальных данных.
Компания LG представила свою свежую разработку в сфере искусственного интеллекта — Captioning AI. Она распознает элементы изображения и генерирует описания и ключевые слова, сообщает The Korea Times. Нейросеть представили на мероприятии Computer Vision and Pattern Recognition 2023 — крупнейшей в мире конференции по компьютерному зрению, которая прошла в Ванкувере (Канада).
Нейросеть основана на Zero-shot Image Captioning от LG AI Research, технологии, которая позволяет ИИ понимать и описывать объекты или сцены, которые он видит впервые, используя свой предыдущий опыт и знания, как это делают люди.
Компания объяснила, что субтитры (текст или слова описания) AI отличаются от подобных нейросетей типа Midjourney, где пользователи сами вводят текст или вставляют файл изображения, а ИИ по запросу генерирует рисунок. В случае с генеративным ИИ от LG искусственный интеллект сам распознает визуальный контент и описывает то, что изображено. Получается, что Captioning AI обладает визуальным интеллектом и может делать выводы об изображениях, которые он раньше не видел. Например, он может смотреть на пейзаж или человека на изображении и определите его местоположение, говорят разработчики.
По словам исследователей, искусственный интеллект с субтитрами может генерировать текстовые описания и ключевые слова для 10 тыс. изображений менее чем за два дня, что может повысить эффективность работы и производительность компаний, которым необходимо управлять большими объемами изображений.
Ранее Фокус писал, что Google с помощью ИИ примерит на вас одежду: обещают, что найдется любой размер.