Я создал свой собственный клон искусственного интеллекта с помощью Google Gemini

Исследуем инструмент аватаров Gemini AI от Google для создания цифрового клона. Узнайте, как работает создание реалистичного видео с помощью ИИ и почему это тревожит.
Всего несколько лет назад перспектива создания своей цифровой версии казалась чистой научной фантастикой. И все же я стоял здесь, держа в руках смартфон с новейшим инструментом создания аватаров Gemini AI от Google, и наблюдая, как приложение готовится превратить меня в синтетический дубликат. Технология обещала создавать реалистичный видеоконтент, в котором с точностью до пикселя воспроизводится мое лицо, голос и манеры поведения. Как человек, который занимается новыми технологиями, я чувствовал себя обязанным проверить это нововведение на собственном опыте, несмотря на философские вопросы, крутящиеся в моей голове о последствиях таких мощных возможностей искусственного интеллекта.
Google позиционирует эту функцию Создание аватаров с помощью искусственного интеллекта как революционный инструмент для создателей контента, преподавателей и специалистов, стремящихся расширить свое цифровое присутствие. Компания видит будущее, в котором люди смогут создавать персонализированный видеоконтент в больших масштабах без необходимости физически появляться перед камерой во время каждого сеанса записи. Теоретически это может позволить учителям создавать неограниченные варианты уроков, влиятельным лицам поддерживать согласованное расписание контента, а профессионалам — общаться с клиентами в разных часовых поясах и контекстах. Однако этические аспекты использования такой технологии продолжают горячо обсуждаться в сообществе по этике ИИ.
Процесс установки оказался на удивление простым. Загрузив приложение Gemini на свое устройство Android, я перешел к функции создания аватара, и мне было предложено предоставить несколько фотографий и краткий образец видео, где я говорю естественно. Системе нужно было запечатлеть черты моего лица под разными углами и проанализировать мой вокал, чтобы построить точную цифровую модель. Через несколько минут ИИ обработал мои биометрические данные и подтвердил, что у него достаточно информации для создания реалистичного видеоконтента. Скорость этого процесса сама по себе казалась поразительной: всего десять лет назад для этого потребовались бы профессиональные студии захвата движения и недели пост-продакшена.
Мое первое созданное видео было, пожалуй, самым странным. Я наблюдал, как моя цифровая версия, сидящая за столом и одетая в ту же рубашку, которую я носил во время тренировки, передала написанное мной заранее подготовленное сообщение. синтетическое качество видео было пугающе точным. Аватар моргал через определенные промежутки времени, естественно переводил взгляд и даже имитировал тонкие выражения лица, передавшие эмоции. Синхронизация губ была почти идеальной, она соответствовала предоставленной мной звуковой дорожке лишь с небольшими недостатками, которые большинство случайных зрителей никогда не заметят. Тем не менее, в результате осталось что-то неопределённо «необычное» — явление, которое исследователи называют «зловещей долиной», когда искусственные изображения людей становятся тревожными именно потому, что они слишком близки к реальности, но не являются полностью аутентичными.
Особого внимания заслуживает синтез голоса. Вместо использования обычного голоса, сгенерированного компьютером, система проанализировала мою манеру речи, акцент и интонацию голоса, чтобы создать звук, который очень похож на мой настоящий голос. Я слышал, как я подчеркиваю определенные слова, легкий хрип в горле при произнесении определенных согласных и даже характер дыхания между предложениями. Это было похоже на то, как будто я услышал свою речь, но слегка отфильтрованную через искусственную линзу. Кто-то, кто меня хорошо знает, вероятно, сможет определить тонкие различия, внимательно слушая, но для случайного наблюдателя голос будет убедительно моим.
Тестирование ограничений аватара выявило недостатки технологии в настоящее время. Я попытался создать видео со сложными жестами рук и динамическим движением по кадру. Руки аватара по большей части оставались статичными, а когда они двигались, движения казались скованными и неубедительными. Технология также борется с экстремальными углами наклона головы и быстрыми движениями. Если бы я написал сценарий, который требовал бы ходить по комнате или взаимодействовать с физическими объектами, аватар замирал или возвращался в статическую позу. Эти ограничения свидетельствуют о том, что технология оптимизирована для контента в стиле «говорящая голова» – простого видеоформата, который включает в себя большую часть образовательного контента, корпоративных коммуникаций и социальных сетей.
С творческой точки зрения возможности генерации цифрового контента действительно интересны. Представьте себе, что вы можете один раз записать свое сообщение, а затем создать десятки его вариантов с разными интонациями, фоном или тонкими модификациями сценария, не требуя дополнительных сеансов записи. Преподаватели могут создавать персонализированные версии уроков, отвечающие индивидуальным потребностям учащихся. Специалисты по продажам могут создавать индивидуальные видеопрезентации для потенциальных клиентов. Представители службы поддержки клиентов могут создавать видеоответы, которые кажутся личными, но при этом генерируются в большом масштабе. Повышение эффективности для создателей контента и учреждений будет существенным.
Однако эта технология одновременно открывает двери для тревожных сценариев, которые заслуживают серьезного рассмотрения. Легкость, с которой я мог создавать видео, где я говорю то, чего на самом деле никогда не говорил, вызывает немедленную обеспокоенность по поводу согласия и подлинности. Кто-то, имеющий доступ к моим биометрическим данным, теоретически может создавать видеоролики, в которых я рекламирую продукты, делаю противоречивые заявления или делаю вид, что участвую в мероприятиях, на которых я никогда не присутствовал. Это представляет собой значительную эволюцию технологии дипфейков, переход от трудоемкой обработки отдельных видео к быстрому промышленному производству синтетических медиа. Последствия дезинформации, мошенничества и манипуляций весьма значительны.
Google внедрил несколько мер безопасности, призванных предотвратить злоупотребление этой технологией. Система требует явного согласия перед созданием аватара, тщательно документирует процесс получения согласия и включает функции нанесения водяных знаков для идентификации видеоконтента, созданного искусственным интеллектом. У компании также есть положения условий обслуживания, запрещающие создание контента, предназначенного для обмана или мошенничества. Однако эти меры во многом зависят от технической реализации и честности пользователей, а история внедрения технологий показывает, что решительные игроки найдут способы обойти ограничения, особенно когда экономические стимулы для этого существенны.
Более широкий вопрос, который поднимает эта технология, касается природы аутентичности в нашем все более цифровом мире. Мы уже признаем, что профили в социальных сетях не представляют собой нефильтрованную версию жизни людей — это тщательно подобранные презентации, созданные для приема аудитории. Однако существует различие между выборочным представлением аутентичного опыта и синтетическим созданием полностью вымышленного опыта. Когда мы смотрим видео, где кто-то говорит, мы в настоящее время действуем, исходя из предположения, что оно отражает то, что произошло на самом деле. Если синтетические медиа станут неотличимы от подлинного видео, это основополагающее предположение рушится. Наши эпистемологические подходы для оценки надежности и аутентичности потребуют фундаментальной перекалибровки.
Эта технология также поднимает вопросы об идентификации и собственности. Если у Google есть подробная биометрическая модель моего лица и голоса, что мешает компании создавать контент по моему подобию без моего постоянного согласия? Что произойдет с этими данными, если моя учетная запись будет скомпрометирована или компания будет приобретена? Технологические компании исторически боролись с безопасностью и конфиденциальностью данных, и ставки в отношении биометрических данных, используемых для создания синтетических носителей, выше, чем в случае с обычной личной информацией. Я обнаружил, что изучаю политику хранения данных и процедуры удаления данных компании и осознаю, что у меня ограниченный контроль над чрезвычайно ценным цифровым активом.
Жуткое чувство, которое я испытал, наблюдая за своим аватаром, было связано не только со страхом перед антиутопическими сценариями. Скорее, это возникло из-за интуитивной странности, когда я наблюдал, как идеальная копия меня действует независимо, произнося слова, которые я выбрал, но произнося их голосом, который звучал как мой, но не был таковым. Это представляло собой странное раздвоение личности — версию меня, которая могла существовать и действовать без моего физического присутствия. С философской точки зрения это поднимает вопросы об аутентичности и присутствии, которые выходят за рамки технологий и становятся экзистенциальными.
Продолжая экспериментировать с инструментом создания аватаров Gemini, я нашел законное применение, которое меня волнует в профессиональном плане, но в то же время вызывает у меня чувство дискомфорта из-за потенциала этой технологии. Эта функция представляет собой настоящий прогресс в технологии создания контента, предлагая возможности, которые, вероятно, станут стандартными инструментами во многих профессиях в течение следующих нескольких лет. Тем не менее, это также представляет собой важный переломный момент во взаимоотношениях между аутентичностью, средствами массовой информации и доверием к цифровой коммуникации. Мы еще не достигли той точки, когда синтетическое видео будет неотличимо от подлинного, но мы ближе, чем думает большинство людей, и разрыв сокращается с каждой итерацией модели.
На данный момент я сохранил созданные видео, но не стал широко ими делиться. Они кажутся экспериментами, а не настоящим общением, артефактами изучения новых технологий, а не аутентичными выражениями, которые я хочу ассоциировать со своей личностью. Тем не менее, я осознаю, что это различие может стать все более размытым по мере того, как видео с генеративным искусственным интеллектом становится более сложным и обычным явлением. Жуткое чувство, которое я испытал, может исчезнуть по мере того, как общество коллективно адаптируется к синтетическим медиа, или оно может представлять собой оправданную инстинктивную реакцию на технологии, требующую тщательного этического рассмотрения. В любом случае, джинн выпущен из бутылки, и создатели, платформы, регулирующие органы и общество в целом должны вдумчиво ориентироваться в последствиях мира, в котором идеальные цифровые двойники нас самих могут быть созданы несколькими нажатиями на экран смартфона.
Источник: Wired


