ШІ навчили "бачити" картинки: нейромережа може описувати своїми словами будь-яке зображення
Ця технологія стане в пригоді для компаній, яким потрібна обробка великих масивів візуальних даних.
Компанія LG представила свою свіжу розробку у сфері штучного інтелекту — Captioning AI. Вона розпізнає елементи зображення та генерує описи та ключові слова, повідомляє The Korea Times. Нейромережу представили на заході Computer Vision and Pattern Recognition 2023 — найбільшої у світі конференції з комп'ютерного зору, що відбулася у Ванкувері (Канада).
Нейромережа заснована на Zero-shot Image Captioning від LG AI Research, технології, яка дозволяє ШІ розуміти та описувати об'єкти або сцени, які він бачить вперше, використовуючи свій попередній досвід та знання, як це роблять люди.
Компанія пояснила, що субтитри (текст або слова опису) AI відрізняються від подібних нейромереж типу Midjourney, де користувачі самі вводять текст або вставляють файл зображення, а ШІ на запит генерує малюнок. У випадку з генеративним ШІ від LG штучний інтелект сам розпізнає візуальний контент та описує те, що зображено. Виходить, що Captioning AI має візуальний інтелект і може робити висновки про зображення, які він раніше не бачив. Наприклад, він може дивитися на пейзаж або людину на зображенні та визначте його місцезнаходження, кажуть розробники.
За словами дослідників, штучний інтелект із субтитрами може генерувати текстові описи та ключові слова для 10 тис. зображень менш ніж за два дні, що може підвищити ефективність роботи та продуктивність компаній, яким необхідно керувати великими обсягами зображень.
Раніше Фокус писав, що Google за допомогою ШІ приміряють на вас одяг: обіцяють, що знайдеться будь-який розмір.