Clarifai 从 OkCupid 面部识别数据集中删除 300 万张照片

FTC 和解后,Clarifai 删除了数百万张用于训练人工智能的照片。这些数据来自 OkCupid,通过涉及高管投资的未公开协议获得。
为解决隐私问题和监管合规问题,Clarifai 采取了一项重大举措,从其面部识别人工智能训练数据集中删除了约 300 万张照片。这些图像最初由约会平台 OkCupid 提供,并有助于开发该公司的计算机视觉功能。此次删除代表着关于数据隐私、同意以及在训练复杂的人工智能模型中个人信息的道德使用的持续对话的关键时刻。
照片删除计划直接源自FTC 和解协议,该协议解决了人们对 Clarifai 如何在没有适当透明度或同意机制的情况下获取和使用用户数据的担忧。根据多方查阅的法庭文件,Clarifai 和 OkCupid 之间的安排可以追溯到 2014 年,当时这家人工智能初创公司向约会平台提出了访问用户照片的最初请求。此请求发生期间,OkCupid 的高管持有 Clarifai 的大量财务股份,引发了有关潜在利益冲突和此类数据共享安排的适当性的重要问题。
此数据排列的历史背景揭示了 2010 年代初至中期科技公司之间存在的复杂关系。在最初提出请求时,面部识别技术正在迅速发展,各公司都在积极寻求大型数据集来训练他们的模型。 OkCupid 拥有数百万个带有照片的用户个人资料,是一个有吸引力的培训数据来源。投资过 Clarifai 的 OkCupid 高管的参与表明了一种互惠互利的安排,尽管这种合作伙伴关系的条款和条件并未对约会平台的用户透明。
促成此次删除的FTC 和解反映了监管机构对科技公司如何处理个人数据的审查日益严格。联邦贸易委员会越来越关注在未明确同意或明确向所涉及数据的个人披露的情况下共享、出售或重新利用用户信息的情况。在这种特殊情况下,将照片上传到平台的 OkCupid 用户可能没有意识到他们的图像将被用来为一家完全不同的公司训练面部识别算法。这种缺乏透明度成为监管调查的中心问题。
面部识别数据集已成为人工智能开发中最具争议的问题之一。训练有效的面部识别模型需要数百万张图像才能确保准确性并最大限度地减少算法偏差。然而,这些数据集的来源经常涉及道德上有问题的做法,包括使用未经同意从互联网上抓取的图像、从执法来源获得的数据或在不明情况下共享的信息。 Clarifai 案例说明了这些数据收集实践如何在用户和监管机构都无法完全了解的灰色地带运作。
删除 300 万张照片意味着 Clarifai 人工智能模型的训练数据大量丢失。在人工智能开发的竞争世界中,此类数据集被认为是公司投入大量资源来获取和维护的无价资产。此次删除可能需要 Clarifai 寻求替代数据源或投资新方法来获取经过适当同意的图像。这一结果表明,监管行动如何对公司开发和改进人工智能系统的能力产生切实的影响,特别是当这些系统依赖于通过可疑手段获得的个人数据时。
与联邦贸易委员会的和解还凸显了人们对风险投资与公司治理之间关系的更广泛担忧。当一家公司的高管持有另一家与其开展业务的公司的经济利益时,就会出现潜在的利益冲突。在本例中,OkCupid 高管在投资 Clarifai 的同时促进对用户数据的访问,这一事实引发了人们的疑问:数据共享决策是否主要是为了 OkCupid 用户的利益而做出的,还是其他考虑因素影响了这种安排。监管机构越来越多地审查此类场景,以确保企业决策优先考虑用户利益。
OkCupid 和 Clarifai 之间最初如何共享数据的细节对于理解当代数据实践仍然具有指导意义。法庭文件显示,该安排于 2014 年正式确定,当时的隐私法规远不如今天严格。发生此数据传输时,欧洲的通用数据保护条例 (GDPR) 和其他司法管辖区的类似隐私框架不存在或尚未执行。尽管如此,联邦贸易委员会的追溯执法行动表明,监管机构认为,即使在这些明确的监管框架建立之前,用户隐私就应该受到保护。
此案例还反映了公众对面部识别技术的意识不断变化及其对隐私和监控的影响。在过去的十年中,人们越来越认识到如何使用面部识别来跟踪个人、在不知情的情况下识别人员以及创建能够实现大规模监控的数据库。公众对此类技术的强烈反对促使公司、平台和政府重新考虑如何开发和部署面部识别系统。 Clarifai 的删除可以被视为人工智能开发中向更大范围的问责制转变的一部分。
展望未来,这一和解以及相关的数据删除可能会影响其他人工智能公司处理数据获取的方式。开发面部识别和其他计算机视觉技术的公司需要证明他们是通过透明、协商一致的方式获取数据的。这可能需要投资新方法,例如合成数据生成、联合学习或与明确同意数据共享的公司建立合作伙伴关系。这些变化的成本影响可能会重塑面部识别技术开发人员的竞争格局。
该案例还强调了企业在如何使用用户数据方面保持透明度的重要性。 OkCupid 创建个人资料并上传照片的用户知道他们的信息将用于促进约会联系,而不是训练面部识别算法。这种数据共享安排违反的隐含信任凸显了为什么隐私政策和服务条款需要全面且明确地披露。当公司以用户未明确授权的方式使用数据时,即使这些使用发生在几年前,监管后果也会随之而来。
对于 Clarifai 来说,丢失 300 万张训练图像的实际影响将取决于其现有模型的稳健性和替代数据源的可用性。该公司多年来一直在使用各种数据集,虽然 OkCupid 照片代表了训练数据的很大一部分,但 Clarifai 在其模型开发中可能存在冗余。尽管如此,此次删除仍然是该公司维持和提高面部识别能力准确性的努力的一次挫折。来自资金雄厚、能够访问大量数据集的竞争对手带来的竞争压力使得此类挫折尤为严重。
这种情况也为风险资本投资者和初创企业高管敲响了警钟,提醒他们从一开始就建立适当的数据治理实践的重要性。当 Clarifai 请求访问 OkCupid 用户照片时,该公司应该探索获得明确用户同意或使用匿名或合成数据的机制。在数据隐私方面偷工减料的监管和声誉成本可能远远超过使用额外训练数据所获得的好处。有远见的人工智能公司越来越将负责任的数据实践视为竞争优势,而不是将其视为监管负担。
删除这 300 万张照片不仅意味着删除数据文件,还意味着删除数据文件。它象征着科技行业收集和使用个人信息的方式发生了更广泛的演变。 FTC 和解以及由此产生的行动表明,监管机构拥有执行隐私保护的权力和意愿,甚至可以追溯。随着人工智能不断发展并在社会中发挥越来越重要的作用,建立关于在人工智能开发中如何处理个人数据的明确期望将变得越来越重要。此案例可能会作为未来执法行动和公司有关培训数据道德采购政策的参考点。
来源: TechCrunch


