我使用 Google Gemini 创建了自己的 AI 克隆

探索 Google 的 Gemini AI 头像工具来创建数字克隆。了解逼真的人工智能视频生成原理以及它为何令人不安。
就在几年前,创建自己的数字版本的前景似乎还只是科幻小说。然而我却在这里,拿着一部运行谷歌最新的双子座人工智能化身工具的智能手机,看着该应用程序准备将我变成一个合成复制品。该技术有望生成逼真的视频内容,以像素完美的方式重现我的脸部、声音和举止。作为涵盖新兴技术的人,我觉得有必要亲自测试这项创新,尽管我的脑海中盘旋着关于如此强大的人工智能功能的影响的哲学问题。
Google 一直将这一人工智能头像创建功能定位为内容创作者、教育工作者和寻求扩大数字影响力的专业人士的革命性工具。该公司设想未来个人可以大规模生成个性化视频内容,而无需在每次录制过程中亲自出现在摄像机上。从理论上讲,这可以让教师创造无限的课程变化,让有影响力的人保持一致的内容时间表,让专业人士与不同时区和背景的客户进行沟通。然而,启用此类技术的伦理层面在人工智能伦理界仍存在激烈争论。
设置过程非常简单。在我的 Android 设备上下载 Gemini 应用程序后,我导航到头像创建功能,系统提示我提供几张照片和一段我自己自然说话的简短视频样本。该系统需要从多个角度捕捉我的面部特征并分析我的声音模式以构建准确的数字模型。几分钟之内,人工智能就处理了我的生物识别数据,并确认它有足够的信息来生成真实的视频内容。这个过程本身的速度就让人感觉非常惊人——就在十年前,这还需要专业的动作捕捉工作室和数周的后期制作工作。
我生成的第一个视频可能是最不可思议的。我看到自己的数字版本,坐在办公桌前,穿着我在训练期间穿的同一件衬衫,传递了我写的脚本信息。 合成视频质量准确得令人不安。化身以适当的间隔眨眼,自然地移动目光,甚至模仿传达情感的微妙面部表情。口型同步几乎是完美的,与我提供的音轨相匹配,只有大多数普通观众永远不会注意到的微小缺陷。然而,结果仍然存在一些不确定的“偏差”——研究人员将这种现象称为“恐怖谷”,其中人类的人工表征变得令人不安,正是因为它们太接近现实而不完全真实。
语音合成值得特别关注。该系统没有使用通用的计算机生成的声音,而是分析了我的语音模式、口音和声音节奏,以生成听起来非常像我真实声音的音频。我可以听到我强调某些单词的特有方式,发音某些辅音时喉咙里轻微的沙哑声,甚至句子之间的呼吸模式。这就像听到我自己说话,但经过人工镜头的轻微过滤。熟悉我的人可能可以通过专注聆听来识别出细微的差异,但对于不经意的观察者来说,这个声音将令人信服地是我的。
测试化身的局限性揭示了该技术目前的不足之处。我尝试生成一个具有复杂手势和跨帧动态运动的视频。化身的双手大多保持静止,当他们移动时,动作显得僵硬且不令人信服。该技术还难以应对极端的头部角度和快速运动。如果我编写的内容需要在房间里走动或与物理对象交互,则头像会冻结或恢复到静态姿势。这些限制表明该技术针对谈话式内容进行了优化,这种内容是一种简单的视频格式,包含大量教育内容、企业通信和社交媒体。
从创意的角度来看,数字内容生成的可能性确实令人兴奋。想象一下,能够将您的消息录制一次,然后生成数十种具有不同变化、背景或微妙脚本修改的变体,而无需额外的录制会话。教育工作者可以创建个性化的课程版本,以满足个别学生的需求。销售专业人员可以为潜在客户生成定制的视频推介。客户服务代表可以创建大规模生成的个性化视频回复。内容创作者和机构的效率提升将是巨大的。
然而,该技术同时也为令人不安的场景打开了大门,值得认真考虑。我可以轻松地制作自己说出自己从未真正说过的话的视频,这引起了人们对同意和真实性的直接担忧。理论上,有权访问我的生物识别数据的人可以制作视频,在其中我认可产品、发表有争议的言论,或者似乎参加了我从未参加过的活动。这代表了深度造假技术的重大演变,从劳动密集型的单个视频操作转向快速、工业化的合成媒体生产。错误信息、欺诈和操纵的影响是巨大的。
Google 实施了多项保护措施,旨在防止滥用该技术。该系统在创建头像之前需要明确同意,彻底记录同意过程,并包括水印功能来识别人工智能生成的视频内容。该公司还制定了服务条款,禁止创建旨在欺骗或欺诈的内容。然而,这些措施在很大程度上依赖于技术实施和用户诚实——技术部署的历史表明,意志坚定的参与者会找到绕过限制的方法,特别是当这样做的经济激励很大时。
这项技术提出的更广泛的问题涉及我们日益数字化的世界中真实性的本质。我们已经承认,社交媒体资料并不代表人们生活的未经过滤的版本——它们是为观众接受而精心制作的演示文稿。然而,选择性呈现真实经历和合成创造完全虚构的经历之间存在区别。当我们观看某人讲话的视频时,我们目前的假设是它代表了实际发生的事情。如果合成媒体变得与真实视频无法区分,那么这个基本假设就会崩溃。我们用于评估可信度和真实性的认知框架需要进行根本性的重新校准。
该技术还引发了有关身份和所有权的问题。如果谷歌拥有我的面部和声音的详细生物识别模型,那么是什么阻止该公司在未经我持续同意的情况下生成我的肖像内容呢?如果我的帐户被盗或公司被收购,这些数据会怎样?科技公司历来一直在数据安全和隐私问题上苦苦挣扎,用于生成合成媒体的生物识别数据的风险高于传统个人信息。我发现自己在研究公司的数据保留政策和删除程序,意识到我对极其有价值的数字资产的控制有限。
我在看着自己的化身时所经历的令人毛骨悚然的感觉主要并不是因为对反乌托邦场景的恐惧。相反,它源于观察到自己独立运作的完美复制品时内心的陌生感,说着我选择的话语,但用听起来像我却又不是的声音说这些话。它代表了一种奇怪的身份分歧——一个可以在没有我的身体存在的情况下存在和行动的我的版本。从哲学上讲,这引发了关于真实性和存在性的问题,这些问题超出了技术范围,延伸到了存在主义领域。
随着我继续尝试双子座头像工具,我发现了合法的用途,这些用途让我在职业上感到兴奋,同时也让我对该技术的潜力感到不安。该功能代表了内容创建技术的真正进步,所提供的功能可能会在未来几年内成为许多行业的标准工具。然而,它也代表了数字通信的真实性、媒体和信任之间关系的一个重要转折点。我们还没有达到合成视频与真实视频无法区分的程度,但我们比大多数人意识到的更接近,并且差距随着每次模型迭代而缩小。
目前,我已保存生成的视频,但尚未广泛分享。它们感觉像是实验而不是真正的交流,是探索新技术的产物,而不是我想要与我的身份相关联的真实表达。但我认识到,随着生成人工智能视频变得更加复杂和普遍,这种区别可能会变得越来越模糊。随着社会集体适应合成媒体,我所经历的不可思议的感觉可能会消失,或者它可能代表对技术的合理本能反应,需要仔细的道德考虑。不管怎样,精灵已经从瓶子里出来了,创作者、平台、监管机构和整个社会都必须深思熟虑地思考这个世界的影响,在这个世界上,只需在智能手机屏幕上轻按几下就可以创建我们自己的完美数字替身。
来源: Wired


