Clarifai удалила фотографии 3M из набора данных по распознаванию лиц OkCupid

Clarifai удаляет миллионы фотографий, используемых для обучения ИИ, после урегулирования спора с Федеральной торговой комиссией. Данные поступили от OkCupid в рамках нераскрытых соглашений, касающихся инвестиций руководителей.
Для решения проблем конфиденциальности и соблюдения нормативных требований компания Clarifai удалила около 3 миллионов фотографий из своего набора данных для обучения искусственному интеллекту в области распознавания лиц. Эти изображения изначально были предоставлены платформой знакомств OkCupid и сыграли важную роль в развитии возможностей компании в области компьютерного зрения. Удаление представляет собой критический момент в продолжающемся разговоре о конфиденциальности данных, согласии и этичном использовании личной информации при обучении сложных моделей искусственного интеллекта.
Инициатива по удалению фотографий возникла непосредственно из мирового соглашения с Федеральной торговой комиссией, в котором рассматривались опасения по поводу того, как Clarifai получала и использовала пользовательские данные без надлежащих механизмов прозрачности или согласия. Согласно судебным документам, проверенным несколькими источниками, соглашение между Clarifai и OkCupid датируется 2014 годом, когда ИИ-стартап обратился к платформе знакомств с первоначальным запросом на доступ к фотографиям пользователей. Этот запрос поступил в период, когда руководители OkCupid владели значительными финансовыми пакетами акций Clarifai, что подняло важные вопросы о потенциальных конфликтах интересов и правомерности таких соглашений по обмену данными.
Исторический контекст такого расположения данных показывает сложные отношения, существовавшие между технологическими компаниями в начале-середине 2010-х годов. На момент первого запроса технология распознавания лиц быстро развивалась, и компании активно искали большие наборы данных для обучения своих моделей. OkCupid, у которого были миллионы пользовательских профилей с фотографиями, представлял собой привлекательный источник обучающих данных. Участие руководителей OkCupid, инвестировавших в Clarifai, предполагало взаимовыгодное соглашение, хотя условия такого партнерства не были прозрачны для пользователей платформы знакомств.
Соглашение FTC, которое послужило причиной удаления, отражает растущее внимание регулирующих органов к тому, как технологические компании обрабатывают персональные данные. Федеральная торговая комиссия все больше внимания уделяет случаям, когда пользовательская информация передается, продается или перепрофилируется без явного согласия или четкого раскрытия лицам, чьи данные задействованы. В данном конкретном случае пользователи OkCupid, загрузившие свои фотографии на платформу, скорее всего, не знали, что их изображения будут использоваться для обучения алгоритмов распознавания лиц для совершенно другой компании. Отсутствие прозрачности стало центральным вопросом в расследовании регулирующих органов.
Наборы данных для распознавания лиц стали одним из самых спорных вопросов в разработке искусственного интеллекта. Для обучения эффективных моделей распознавания лиц требуются миллионы изображений, чтобы обеспечить точность и минимизировать алгоритмическую погрешность. Однако получение этих наборов данных часто связано с этически сомнительными практиками, включая использование изображений, извлеченных из Интернета без согласия, данных, полученных из источников правоохранительных органов, или информации, передаваемой при неясных обстоятельствах. Случай с Clarifai демонстрирует, как такие методы сбора данных могут работать в «серых зонах», где ни пользователи, ни регулирующие органы не имеют полной видимости.
Удаление 3 миллионов фотографий означает существенную потерю обучающих данных для моделей искусственного интеллекта Clarifai. В конкурентном мире разработки искусственного интеллекта такие наборы данных считаются бесценным активом, в приобретение и поддержание которого компании вкладывают значительные ресурсы. Удаление, скорее всего, потребует от Clarifai поиска альтернативных источников данных или инвестиций в новые методы получения изображений, одобренных должным образом. Этот результат демонстрирует, как нормативные меры могут иметь ощутимые последствия для способности компаний разрабатывать и совершенствовать свои системы искусственного интеллекта, особенно когда эти системы полагаются на персональные данные, полученные сомнительными способами.
Соглашение с Федеральной торговой комиссией также подчеркивает более широкую обеспокоенность по поводу взаимосвязи между венчурными инвестициями и корпоративным управлением. Когда руководители одной компании владеют финансовыми интересами в другой компании, с которой они ведут бизнес, возникают потенциальные конфликты интересов. В этом случае тот факт, что руководители OkCupid инвестировали в Clarifai, одновременно облегчая доступ к пользовательским данным, вызывает вопросы о том, было ли решение об обмене данными принято в первую очередь в интересах пользователей OkCupid или на это повлияли другие соображения. Регулирующие органы все чаще изучают такие сценарии, чтобы гарантировать, что при принятии корпоративных решений приоритет отдается интересам пользователей.
Особенности первоначального обмена данными между OkCupid и Clarifai остаются поучительными для понимания современной практики обработки данных. Судебные документы указывают на то, что соглашение было официально оформлено в 2014 году, в эпоху, когда правила конфиденциальности были гораздо менее строгими, чем сегодня. Общий регламент по защите данных (GDPR) в Европе и аналогичные механизмы конфиденциальности в других юрисдикциях не существовали или еще не применялись на момент передачи данных. Тем не менее, ретроактивные правоприменительные меры Федеральной торговой комиссии позволяют предположить, что регулирующие органы считают, что конфиденциальность пользователей должна была быть защищена еще до того, как были созданы эти явные нормативные рамки.
Этот случай также отражает развивающееся общественное сознание о технологии распознавания лиц и ее значении для конфиденциальности и наблюдения. За последнее десятилетие возросло понимание того, как распознавание лиц можно использовать для отслеживания людей, идентификации людей без их ведома и создания баз данных, позволяющих осуществлять массовое наблюдение. Общественная реакция на такие технологии побудила компании, платформы и правительства пересмотреть способы разработки и внедрения систем распознавания лиц. Удаление Clarifai можно рассматривать как часть более широкого сдвига в сторону большей подотчетности в разработке ИИ.
В перспективе это соглашение и связанное с ним удаление данных, скорее всего, повлияют на подход других компаний, занимающихся искусственным интеллектом, к сбору данных. Компании, разрабатывающие распознавание лиц и другие технологии компьютерного зрения, должны будут продемонстрировать, что они получили данные прозрачными и согласованными способами. Это может потребовать инвестиций в новые подходы, такие как генерация синтетических данных, федеративное обучение или партнерство с компаниями, которые дали явное согласие на обмен данными. Финансовые последствия этих изменений могут изменить конкурентную среду для разработчиков технологий распознавания лиц.
Этот случай также подчеркивает важность корпоративной прозрачности в отношении использования пользовательских данных. Пользователи OkCupid, создававшие профили и загружавшие фотографии, делали это, понимая, что их информация будет использоваться для облегчения знакомств, а не для обучения алгоритмов распознавания лиц. Неявное доверие, нарушенное этим соглашением о совместном использовании данных, подчеркивает, почему политика конфиденциальности и условия обслуживания должны быть всеобъемлющими и четко раскрытыми. Когда компании используют данные способами, которые пользователи явно не санкционировали, даже если такое использование произошло несколько лет назад, могут последовать регуляторные последствия.
Для Clarifai практические последствия потери 3 миллионов обучающих изображений будут зависеть от надежности существующих моделей и доступности альтернативных источников данных. Компания работала с различными наборами данных на протяжении многих лет, и хотя фотографии OkCupid представляли собой значительную часть обучающих данных, Clarifai может иметь избыточность при разработке модели. Тем не менее, удаление представляет собой неудачу в усилиях компании по поддержанию и повышению точности возможностей распознавания лиц. Конкурентное давление со стороны хорошо финансируемых конкурентов, имеющих доступ к обширным наборам данных, делает такие неудачи особенно значимыми.
Эта ситуация также служит предостережением для венчурных инвесторов и руководителей стартапов относительно важности внедрения надлежащих методов управления данными с самого начала. Когда Clarifai запросил доступ к фотографиям пользователей OkCupid, компании следовало изучить механизмы получения явного согласия пользователя или работы с анонимными или синтезированными данными. Нормативные и репутационные издержки, связанные с сокращением конфиденциальности данных, могут значительно превысить выгоды, получаемые от использования дополнительных обучающих данных. Дальновидные компании, занимающиеся искусственным интеллектом, все чаще отдают предпочтение ответственному использованию данных как конкурентному преимуществу, а не рассматривают его как нормативное бремя.
Удаление этих 3 миллионов фотографий представляет собой нечто большее, чем просто удаление файлов данных; он символизирует более широкую эволюцию подхода технологической отрасли к сбору и использованию личной информации. Соглашение с Федеральной торговой комиссией и последующее действие демонстрируют, что регулирующие органы обладают полномочиями и желанием обеспечить соблюдение защиты конфиденциальности, даже задним числом. Поскольку искусственный интеллект продолжает развиваться и играть все более заметную роль в обществе, установление четких ожиданий относительно того, как следует обращаться с персональными данными при разработке ИИ, будет становиться все более важным. Этот случай, скорее всего, послужит отправной точкой для будущих правоприменительных мер и политики компании в отношении этического отбора данных для обучения.
Источник: TechCrunch


