Технологии и наука

Селфи в помощь. Как проверить, используются ли ваши фото системой распознавания лиц

01 февраля 2021 в 16:05

Фото: Adam Harvey | Мозаика изображений из набора данных MegaFace, включающего более 3,5 млн снимков.

Ученые создали онлайн-инструмент, показывающий, какие личные фотографии пользователей используются системами распознавания лиц.

Когда технологические компании создали системы распознавания лиц, которые изменили государственную слежку и сократили личную конфиденциальность, они получили помощь из неожиданного источника – нас с вами, пишет The New York Times.

Компании, университеты и государственные лаборатории использовали миллионы изображений, собранных из множества онлайн-источников, для разработки технологии. Теперь исследователи создали онлайн-инструмент Exposing.AI, который позволяет людям отыскать свои фото в коллекциях, используемых системами распознавания лиц.

Этот инструмент, который анализирует изображения из онлайн-службы обмена фотографиями Flickr, открывает окно в огромный объем данных, необходимых для ИИ.

"Люди должны понимать, что некоторые из их самых интимных моментов были превращены в оружие", – говорит технологический директор проекта Surveillance Technology Oversight Project, группы по защите конфиденциальности и гражданских прав Лиз О"Салливан. Она создала инструмент Exposing.AI вместе с Адамом Харви, исследователем и художником из Берлина.

Системы, использующие ИИ, не становятся умными волшебным образом. Они учатся, выявляя закономерности в данных, созданных людьми – фотографиях, записях голоса, книгах, статьях в Википедии и других материалах.

Люди могут не знать, что сами вносят вклад в образование ИИ, говорят эксперты.

Flickr, который на протяжении многих лет покупался и продавался многими компаниями и теперь принадлежит сервису обмена фотографиями SmugMug, позволял пользователям делиться фото по так называемой лицензии Creative Commons. Эта лицензия, распространенная в сети, означает, что другие пользователи могут использовать любые фотографии с определенными ограничениями, но и они могут быть проигнорированы. В 2014 году Yahoo, которой тогда принадлежал Flickr, использовал этот банк фотографий, для усовершенствования своего "компьютерного зрения".

В 2006 году Бретт Гейлор, режиссер-документалист из Канады, загрузил свои фотографии с медового месяца на популярный тогда сервис Flickr. Спустя почти 15 лет, используя раннюю версию Exposing.AI, предоставленную Адамом Харви, он пришел в ужас. Сотни фотографий Гейлора вошли в несколько наборов данных, которые возможно, использовались для систем обучения распознавания лиц по всему миру.

"Мое любопытство переросло в ужас", – признается Бретт Гейлор.

Много лет назад ИИ-разработчики из ведущих университетов и технологических компаний начали собирать цифровые фотографии из самых разных источников. Среди них были службы обмена фотографиями, соцсети, сайты знакомств и так далее. Они поделились этими фотографиями с другими организациями.

Одним из примеров был набор данных MegaFace, созданный профессорами Вашингтонского университета в 2015 года. Они создали базу без ведома и согласия людей, чьи фотографии были использованы. Профессоры разместили базу в Интернете, чтобы другие могли ее скачать.

Согласно данным NYT, MegaFace был загружен более 6 тыс. раз компаниями и госучреждениями по всему миру. Среди них был оборонный подрядчик США Northrop Grumman, инвестиционной подразделение ЦРУ In-Q-Tel, материнская компания китайского приложения TikTok и китайская компания Megvii, разрабатывающая системы распознавания лиц.

Исследователи создали MegaFace для использования в академическом конкурсе, призванном стимулировать развитие систем распознавания лиц. База не была предназначена для коммерческого использования. Но лишь небольшой процент скачавших MegaFace публично участвовал в конкурсе.

"Мы не можем обсуждать сторонние проекты. MegaFace был выведен из эксплуатации, и данные MegaFace больше не распространяются", – говорит представитель Вашингтонского университета Виктор Балта.

Некоторые из тех, кто загрузил данные MegaFace, вскоре, развернули собственные системы распознавания лиц. Например, среди них была китайская Megvii, внесенная в черный список Департамента торговли США в прошлом году. Это произошло после того, как китайское правительство использовало технологию для мониторинга уйгурского населения страны.

Вашингтонский университет отключил MegaFace в мае, другие организации также удалили набор данных. Но копии файлов могут быть где угодно, и вероятно, будут способствовать новым исследованиям.

Эксперты ОʼСалливан и Харви потратили годы, пытаясь создать инструмент, который мог бы раскрыть, как используются подобные данные. Задача также состояла в том, чтобы этот инструмент не могли использовать в корыстных целях сталкеры, компании и госучреждения.

"Риск нанести вред казался слишком высоким", – говорит О"Салливан.

В конце концов, разработчикам пришлось ограничить возможности своего инструмента. Он не так эффективен, но эксперты не опасаются, что могут усугубить проблему.

Exposing.AI сам по себе не использует распознавание лиц. Он может анализировать лишь те фотографии, которые уже есть в Сети, и пользователи могут поделиться их адресом в Интернете. Люди могут искать только фотографии, опубликованные на Flickr, и им нужно будет ввести имя пользователя на Flickr, тег или интернет-адрес, который может идентифицировать эти фотографии. По словам исследователей, это обеспечивает надлежащую безопасность и защиту конфиденциальности.

Несмотря на то, что эффективность инструмента достаточно ограничена, он по-прежнему можно открыть глаза на ситуацию. Изображения Flickr составляют значительную часть наборов данных для распознавания лиц, передаваемых в Интернете, включая MegaFace.