ШІ навчили "бачити" картинки: нейромережа може описувати своїми словами будь-яке зображення

штучний інтелект, генеративний штучний інтелект
Фото: Нейромережа | Нейромережа може описувати "побачені" картинки

Ця технологія стане в пригоді для компаній, яким потрібна обробка великих масивів візуальних даних.

Related video

Компанія LG представила свою свіжу розробку у сфері штучного інтелекту — Captioning AI. Вона розпізнає елементи зображення та генерує описи та ключові слова, повідомляє The Korea Times. Нейромережу представили на заході Computer Vision and Pattern Recognition 2023 — найбільшої у світі конференції з комп'ютерного зору, що відбулася у Ванкувері (Канада).

Нейромережа заснована на Zero-shot Image Captioning від LG AI Research, технології, яка дозволяє ШІ розуміти та описувати об'єкти або сцени, які він бачить вперше, використовуючи свій попередній досвід та знання, як це роблять люди.

LG, Captioning AI, штучний інтелект Fullscreen
Captioning AI від LG допоможе компаніям, яким потрібно обробляти великий масив зображень
Фото: LG Electronics

Компанія пояснила, що субтитри (текст або слова опису) AI відрізняються від подібних нейромереж типу Midjourney, де користувачі самі вводять текст або вставляють файл зображення, а ШІ на запит генерує малюнок. У випадку з генеративним ШІ від LG штучний інтелект сам розпізнає візуальний контент та описує те, що зображено. Виходить, що Captioning AI має візуальний інтелект і може робити висновки про зображення, які він раніше не бачив. Наприклад, він може дивитися на пейзаж або людину на зображенні та визначте його місцезнаходження, кажуть розробники.

За словами дослідників, штучний інтелект із субтитрами може генерувати текстові описи та ключові слова для 10 тис. зображень менш ніж за два дні, що може підвищити ефективність роботи та продуктивність компаній, яким необхідно керувати великими обсягами зображень.

Раніше Фокус писав, що Google за допомогою ШІ приміряють на вас одяг: обіцяють, що знайдеться будь-який розмір.