Селфі в допомогу. Як перевірити, чи використовуються ваші фото системою розпізнавання осіб

01.02.2021 в 16:05

Мозаїка зображень з набору даних MegaFace, що включає більше 3,5 млн знімків. | Фото: системы распознавания лиц

Учені створили онлайн-інструмент, що показує, які особисті фотографії користувачів використовуються системами розпізнавання осіб.

Коли технологічні компанії створили системи розпізнавання осіб, які змінили державне стеження і скоротили особисту конфіденційність, вони отримали допомогу з несподіваного джерела — нас з вами, пише The New York Times.

Компанії, університети та державні лабораторії використовували мільйони зображень, зібраних з безлічі онлайн-джерел, для розробки технології. Тепер дослідники створили онлайн-інструмент Exposing.AI, що дозволяє людям відшукати свої фото в колекціях, які використовуються системами розпізнавання осіб.

Цей інструмент, що аналізує зображення з онлайн-служби обміну фотографіями Flickr, відкриває вікно у величезний обсяг даних, необхідних для ІІ.

"Люди повинні розуміти, що деякі з їхніх інтимних моментів були перетворені на зброю", — говорить технологічний директор проекту Surveillance Technology Oversight Project, групи із захисту конфіденційності і цивільних прав Ліз О'Салліван. Вона створила інструмент Exposing.AI разом з Адамом Харві, дослідником і художником з Берліна.

Системи, що використовують ІІ, не стають розумними чарівним чином. Вони вчаться, виявляючи закономірності в даних, створених людьми — фотографіях, записах голосів, книгах, статтях у Вікіпедії та інших матеріалах.

Люди можуть не знати, що самі вносять внесок в освіту ІІ, кажуть експерти.

Flickr, який протягом багатьох років купувався і продавався багатьма компаніями і наразі належить сервісу обміну фотографіями SmugMug, дозволяв користувачам ділитися фото з так званої ліцензії Creative Commons. Ця ліцензія, поширена в мережі, означає, що інші користувачі можуть використовувати будь-які фотографії з певними обмеженнями, але і вони можуть бути проігноровані. У 2014 році Yahoo, якій тоді належав Flickr, використовував цей банк фотографій, для удосконалення свого "комп'ютерного зору".

У 2006 році Бретт Гейлор, режисер-документаліст з Канади, завантажив свої фотографії з медового місяця на популярний тоді сервіс Flickr. Майже через 15 років, використовуючи ранню версію Exposing.AI, надану Адамом Харві, він жахнувся. Сотні фотографій Гейлора увійшли в кілька наборів даних, які можливо, використовувалися для систем навчання розпізнавання осіб по всьому світу.

"Моя цікавість переросла в жах", — зізнається Бретт Гейлор.

Багато років тому ІІ-розробники з провідних університетів і технологічних компаній почали збирати цифрові фотографії з різних джерел. Серед них були служби обміну фотографіями, соцмережі, сайти знайомств тощо. Вони поділилися цими фотографіями з іншими організаціями.

Одним із прикладів був набір даних MegaFace, створений професорами Вашингтонського університету у 2015 року. Вони створили базу без відома і згоди людей, чиї фотографії були використані. Професори розмістили базу в Інтернеті, щоб інші могли її завантажити.

Згідно з даними NYT, MegaFace був завантажений понад 6 тис. разів компаніями і державними структурами по всьому світу. Серед них був оборонний підрядник США Northrop Grumman, інвестиційної підрозділ ЦРУ In-Q-Tel, материнська компанія китайського додатку TikTok і китайська компанія Megvii, що розробляє системи розпізнавання осіб.

Дослідники створили MegaFace для використання в академічному конкурсі, покликаному стимулювати розвиток систем розпізнавання осіб. База не була призначена для комерційного використання. Але лише невеликий відсоток тих, хто завантажив MegaFace, публічно брали участь у конкурсі.

"Ми не можемо обговорювати сторонні проекти. MegaFace був виведений з експлуатації, і дані MegaFace більше не поширюються", — говорить представник Вашингтонського університету Віктор Балта.

Деякі з тих, хто завантажив дані MegaFace, незабаром розгорнули власні системи розпізнавання осіб. Наприклад, серед них була китайська Megvii, внесена в чорний список Департаменту торгівлі США в минулому році. Це сталося після того, як китайський уряд використовував технологію для моніторингу уйгурського населення країни.

Вашингтонський університет відключив MegaFace в травні, інші організації також видалили набір даних. Але копії файлів можуть бути де завгодно, і ймовірно, сприятимуть новим дослідженням.

Експерти О'Салліван і Харві витратили роки, намагаючись створити інструмент, який міг би розкрити, як використовуються подібні дані. Завдання також полягало в тому, щоб цей інструмент не могли використовувати в корисливих цілях сталкери, компанії і держустанови.

"Ризик завдати шкоди здавався занадто високим", — говорить О'Салліван.

Зрештою, розробникам довелося обмежити можливості свого інструмента. Він не такий ефективний, але експерти не побоюються, що можуть погіршити проблему.

Exposing.AI сам по собі не використовує розпізнавання осіб. Він може аналізувати лише ті фотографії, які вже є в мережі, і користувачі можуть поділитися їх адресою в інтернеті. Люди можуть шукати тільки фотографії, опубліковані на Flickr, і їм потрібно буде ввести ім'я користувача на Flickr, тег або інтернет-адресу, що може ідентифікувати ці фотографії. За словами дослідників, це організовує належну безпеку та захист конфіденційності.

Незважаючи на те, що ефективність інструменту досить обмежена, він, як і раніше, може розплющити очі на ситуацію. Зображення Flickr складають значну частину наборів даних для розпізнавання осіб, переданих в інтернеті, включаючи MegaFace.