Clarifai видаляє фотографії 3M з набору даних розпізнавання обличчя OkCupid

Clarifai видаляє мільйони фотографій, які використовувалися для навчання ШІ після врегулювання FTC. Дані отримані від OkCupid через нерозголошені угоди, що включають інвестиції керівників.
У рамках важливого кроку, спрямованого на вирішення проблем конфіденційності та дотримання нормативних вимог, Clarifai видалила приблизно 3 мільйони фотографій зі свого набору даних для навчання штучному інтелекту розпізнавання облич. Ці зображення спочатку були надані платформою знайомств OkCupid і відіграли важливу роль у розвитку можливостей комп’ютерного зору компанії. Видалення є критичним моментом у поточній дискусії про конфіденційність даних, згоду та етичне використання особистої інформації під час навчання складних моделей ШІ.
Ініціатива щодо видалення фотографій виникла безпосередньо в результаті врегулювання FTC, у якому розглядалися питання щодо того, як Clarifai отримував і використовував дані користувачів без належної прозорості або механізмів згоди. Згідно з судовими документами, перевіреними багатьма джерелами, домовленості між Clarifai та OkCupid сягають 2014 року, коли стартап зі штучним інтелектом надіслав платформі знайомств перший запит на доступ до фотографій користувачів. Цей запит було надіслано в період, коли керівництво OkCupid володіло значними фінансовими частками в Clarifai, що викликало важливі питання щодо потенційних конфліктів інтересів і належності таких угод щодо обміну даними.
Історичний контекст цього розташування даних показує складні стосунки, які існували між технологічними компаніями на початку та в середині 2010-х років. На момент першого запиту технологія розпізнавання обличчя стрімко розвивалася, і компанії наполегливо шукали великі набори даних для навчання своїх моделей. OkCupid, який мав мільйони профілів користувачів із фотографіями, представляв привабливе джерело навчальних даних. Участь керівників OkCupid, які інвестували в Clarifai, передбачала взаємовигідну угоду, хоча умови такого партнерства не були прозорими для користувачів платформи знайомств.
Угода FTC, яка спонукала до цього видалення, відображає дедалі більшу регулятивну перевірку того, як технологічні компанії обробляють особисті дані. Федеральна торгова комісія дедалі більше зосереджується на випадках, коли інформація про користувачів передається, продається або змінюється без чіткої згоди або чіткого розголошення особам, чиї дані залучені. У цьому конкретному випадку користувачі OkCupid, які завантажили свої фотографії на платформу, ймовірно, не підозрювали, що їхні зображення будуть використані для навчання алгоритмів розпізнавання обличчя для зовсім іншої компанії. Ця відсутність прозорості стала центральною проблемою регуляторного розслідування.
Набори даних розпізнавання облич стали одним із найбільш спірних питань у розробці штучного інтелекту. Для навчання ефективних моделей розпізнавання обличчя потрібні мільйони зображень, щоб забезпечити точність і мінімізувати зміщення алгоритмів. Однак джерело цих наборів даних часто включало сумнівні з етичної точки зору практики, зокрема використання зображень, взятих з Інтернету без згоди, даних, отриманих із правоохоронних джерел, або інформації, наданої за нез’ясованих обставин. Випадок Clarifai показує, як ці методи збору даних можуть працювати в сірих зонах, де ні користувачі, ні регулятори не мають повної видимості.
Видалення 3 мільйонів фотографій означає значну втрату навчальних даних для моделей AI Clarifai. У конкурентному світі розробок штучного інтелекту такі набори даних вважаються безцінними активами, для придбання та підтримки яких компанії вкладають значні ресурси. Видалення, швидше за все, вимагатиме від Clarifai пошуку альтернативних джерел даних або інвестування в нові методи отримання належним чином узгоджених зображень. Цей результат демонструє, як регулятивні дії можуть мати відчутні наслідки для здатності компаній розвивати та вдосконалювати свої системи ШІ, особливо коли ці системи покладаються на особисті дані, отримані сумнівним шляхом.
Угода з FTC також висвітлює ширші занепокоєння щодо зв’язку між інвестиціями венчурного капіталу та корпоративним управлінням. Коли керівники однієї компанії мають фінансові інтереси в іншій компанії, з якою вони ведуть бізнес, виникають потенційні конфлікти інтересів. У цьому випадку той факт, що керівництво OkCupid інвестувало в Clarifai, водночас полегшуючи доступ до даних користувачів, викликає питання про те, чи рішення про обмін даними було прийнято переважно в інтересах користувачів OkCupid чи інші міркування вплинули на домовленість. Регуляторні органи все частіше перевіряють такі сценарії, щоб переконатися, що корпоративні рішення віддають перевагу інтересам користувачів.
Особливості початкового обміну даними між OkCupid і Clarifai залишаються повчальними для розуміння сучасної практики обробки даних. Судові документи свідчать про те, що угода була офіційно оформлена в 2014 році, в епоху, коли правила конфіденційності були набагато менш суворими, ніж сьогодні. Загальний регламент захисту даних (GDPR) у Європі та подібні рамки конфіденційності в інших юрисдикціях не існували або ще не виконувалися на момент передачі даних. Тим не менш, ретроактивні примусові дії FTC свідчать про те, що регулятори вважають, що конфіденційність користувачів слід було захищати ще до того, як було створено ці чіткі нормативні рамки.
Ця справа також відображає розвиток суспільної свідомості щодо технології розпізнавання обличчя та її наслідків для конфіденційності та спостереження. За останнє десятиліття зросла обізнаність щодо того, як розпізнавання облич можна використовувати для відстеження людей, ідентифікації людей без їхнього відома та створення баз даних, які дозволяють масове спостереження. Негативна реакція громадськості на такі технології спонукала компанії, платформи та уряди переглянути способи розробки та впровадження систем розпізнавання облич. Видалення Clarifai можна розглядати як частину ширшого переходу до більшої відповідальності в розробці ШІ.
У майбутньому ця мирова угода та пов’язане з нею видалення даних, імовірно, вплинуть на те, як інші компанії зі штучним інтелектом підходять до збору даних. Компанії, які розробляють розпізнавання облич та інші технології комп’ютерного зору, повинні будуть продемонструвати, що вони отримали дані прозорими, консенсусними засобами. Це може вимагати інвестування в нові підходи, такі як генерація синтетичних даних, інтегроване навчання або партнерство з компаніями, які явно дали згоду на обмін даними. Вартість цих змін може змінити конкурентоспроможність для розробників технологій розпізнавання облич.
Ця справа також підкреслює важливість корпоративної прозорості щодо того, як використовуються дані користувачів. Користувачі OkCupid, які створювали профілі та завантажували фотографії, робили це, розуміючи, що їхня інформація буде використана для полегшення знайомств, а не для навчання алгоритмів розпізнавання облич. Непряма довіра, порушена цією домовленістю про обмін даними, підкреслює, чому політика конфіденційності та умови надання послуг мають бути вичерпними та чітко розкритими. Коли компанії використовують дані у спосіб, який користувачі явно не дозволили, навіть якщо це використання відбулося роками раніше, це може спричинити нормативні наслідки.
Для Clarifai практичний вплив втрати 3 мільйонів навчальних зображень залежатиме від надійності існуючих моделей і наявності альтернативних джерел даних. Протягом багатьох років компанія працювала з різними наборами даних, і хоча фотографії OkCupid являли собою значну частину навчальних даних, Clarifai може мати надмірність у розробці моделі. Тим не менш, видалення означає відкат у зусиллях компанії підтримувати та покращувати точність своїх можливостей розпізнавання обличчя. Конкурентний тиск з боку добре фінансованих конкурентів, які мають доступ до великих наборів даних, робить такі невдачі особливо серйозними.
Ця ситуація також є застереженням для інвесторів венчурного капіталу та керівників стартапів щодо важливості встановлення належних практик управління даними з самого початку. Коли Clarifai запитувала доступ до фотографій користувачів OkCupid, компанія мала вивчити механізми отримання явної згоди користувача або роботи з анонімними чи синтезованими даними. Регуляторні та репутаційні витрати від скорочення конфіденційності даних можуть значно перевищувати переваги, отримані від використання додаткових навчальних даних. Прогресивні компанії зі штучним інтелектом дедалі більше віддають перевагу відповідальним методам обробки даних як конкурентній перевагі, а не розглядають їх як регуляторний тягар.
Видалення цих 3 мільйонів фотографій означає більше, ніж просто видалення файлів даних; це символізує ширшу еволюцію підходу індустрії технологій до збору та використання особистої інформації. Угода FTC і відповідні дії демонструють, що регуляторні органи мають повноваження та готовність забезпечувати захист конфіденційності, навіть заднім числом. Оскільки штучний інтелект продовжує розвиватися та відіграє все більш помітну роль у суспільстві, встановлення чітких очікувань щодо того, як слід обробляти персональні дані під час розробки ШІ, ставатиме все більш важливим. Цей випадок, ймовірно, послужить точкою відліку для майбутніх примусових заходів і політики компанії щодо етичного джерела даних для навчання.
Джерело: TechCrunch


