Я створив власний клон ШІ за допомогою Google Gemini

Вивчення інструменту Google Gemini AI для створення цифрового клону. Дізнайтеся, як працює створення реалістичного штучного інтелекту та чому це викликає занепокоєння.
Ще кілька років тому перспектива створення цифрової версії себе здавалася чистою науковою фантастикою. І все ж я тримав смартфон із останнім інструментом для створення аватарів Gemini AI від Google і спостерігав, як програма готується перетворити мене на штучну копію. Технологія обіцяла створити реалістичний відеоконтент із ідеальним відтворенням мого обличчя, голосу та манер. Як людина, яка займається новими технологіями, я відчув потребу випробувати цю інновацію на власні очі, незважаючи на філософські запитання, які кружляли в моїй голові щодо наслідків таких потужних можливостей ШІ.
Google позиціонує цю функцію створення аватарів штучного інтелекту як революційний інструмент для творців вмісту, викладачів і професіоналів, які прагнуть збільшити свою цифрову присутність. Компанія передбачає майбутнє, де люди зможуть створювати персоналізований відеоконтент у великих масштабах, без необхідності фізично з’являтися перед камерою під час кожного сеансу запису. Теоретично це може дозволити вчителям створювати необмежену кількість варіантів уроків, впливовим особам підтримувати узгоджені розклади контенту, а професіоналам спілкуватися з клієнтами в різних часових поясах і контекстах. Проте етичні аспекти використання такої технології залишаються гарячими дискусіями в спільноті етики ШІ.
Процес налаштування був напрочуд простим. Завантаживши програму Gemini на свій пристрій Android, я перейшов до функції створення аватара, і мені було запропоновано надати кілька фотографій і короткий приклад відео, де я говорю природно. Системі потрібно було зафіксувати риси мого обличчя з різних кутів і проаналізувати мої голосові моделі, щоб створити точну цифрову модель. За кілька хвилин штучний інтелект обробив мої біометричні дані та підтвердив, що має достатньо інформації для створення реалістичного відеоконтенту. Швидкість цього процесу сама по собі здається неймовірною — те, що ще десять років тому вимагало професійних студій захоплення руху та тижнів пост-продакшну.
Моє перше згенероване відео було, мабуть, найстрашнішим. Я спостерігав, як цифрове відтворення себе, сидячи за столом і одягненого в ту саму сорочку, яку я носив під час тренування, доставляв написане мною повідомлення за сценарієм. Якість синтетичного відео була надзвичайно точною. Аватар кліпав через відповідні проміжки часу, природно переводив погляд і навіть імітував тонку міміку, яка передавала емоції. Синхронізація губ була майже ідеальною, відповідаючи звуковій доріжці, яку я надав, лише з незначними недоліками, які більшість випадкових глядачів ніколи не помітять. Проте щось незрозуміле в результаті залишилося — феномен, який дослідники називають «таємничою долиною», де штучні зображення людей викликають занепокоєння саме тому, що вони надто близькі до реальності, але не є повністю автентичними.
Окремої уваги заслуговує голосовий синтез. Замість того, щоб використовувати звичайний голос, згенерований комп’ютером, система проаналізувала мою модель мовлення, акцент і вокальний ритм, щоб отримати аудіо, яке звучало б надзвичайно схоже на мій справжній голос. Я чув, як я наголошую на певних словах, легкий хрип у горлі при вимові певних приголосних і навіть дихання між реченнями. Це було ніби я чую, як я говорю, але трохи відфільтрований крізь штучну лінзу. Хтось, хто добре мене знає, напевно міг би визначити тонкі відмінності, зосереджено слухаючи, але для випадкових спостерігачів голос був би переконливо моїм.
Тестування обмежень аватара виявило, де технологія наразі не витримує. Я спробував згенерувати відео зі складними жестами рук і динамічними рухами по кадру. Руки аватара залишалися здебільшого статичними, а коли вони рухалися, рухи виглядали жорсткими та непереконливими. Технологія також бореться з екстремальними кутами нахилу голови та швидкими рухами. Якби я створював сценарій вмісту, який вимагав ходити кімнатою або взаємодіяти з фізичними об’єктами, аватар завмирав або повертався до статичної пози. Ці обмеження вказують на те, що технологію оптимізовано для вмісту в стилі «розмовна голова» — такого простого відеоформату, який містить більшу частину освітнього контенту, корпоративних комунікацій і соціальних мереж.
З творчої точки зору, можливості генерування цифрового вмісту справді захоплюючі. Уявіть собі, що ви можете записати своє повідомлення один раз, а потім створити десятки варіантів із різними інтонаціями, фоном або тонкими змінами сценарію, не вимагаючи додаткових сеансів запису. Педагоги можуть створювати персоналізовані версії уроків відповідно до індивідуальних потреб учнів. Фахівці з продажу можуть створювати індивідуальні відеопрезентації для потенційних клієнтів. Представники служби підтримки клієнтів можуть створювати відеовідповіді, які здаються особистими, хоча вони генеруються в масштабі. Підвищення ефективності для творців контенту та установ було б суттєвим.
Однак ця технологія водночас відкриває двері для тривожних сценаріїв, які заслуговують серйозного розгляду. Легкість, з якою я міг створювати відео, де я говорю те, чого насправді ніколи не говорив, одразу викликає занепокоєння щодо згоди та автентичності. Хтось із доступом до моїх біометричних даних теоретично може створювати відео, де я схвалюю продукти, роблю суперечливі заяви або нібито беру участь у заходах, які я ніколи не відвідував. Це являє собою значну еволюцію в технології deepfake, яка переходить від трудомісткої обробки окремих відео до швидкого індустріалізованого виробництва синтетичних носіїв. Наслідки дезінформації, шахрайства та маніпуляцій значні.
Google запровадив кілька заходів безпеки, щоб запобігти зловживанню цією технологією. Система вимагає чіткої згоди перед створенням аватара, ретельно документує процес згоди та включає функції водяних знаків для ідентифікації відеоконтенту, створеного ШІ. Компанія також має умови надання послуг, які забороняють створення вмісту, призначеного для обману чи шахрайства. Проте ці заходи значною мірою залежать від технічного впровадження та чесності користувачів, і історія впровадження технологій свідчить про те, що рішучі учасники знайдуть способи обійти обмеження, особливо коли для цього є значні економічні стимули.
Ширше питання, яке викликає ця технологія, стосується природи автентичності в нашому все більш цифровому світі. Ми вже згодні з тим, що профілі в соціальних мережах не представляють невідфільтровані версії життя людей — це спеціально підібрані презентації, створені для сприйняття аудиторією. Проте існує різниця між вибірковим представленням справжнього досвіду та синтетичним створенням повністю вигаданого. Коли ми дивимося відео, на якому хтось говорить, ми наразі припускаємо, що воно відображає щось, що насправді відбулося. Якщо синтетичний носій стає неможливо відрізнити від автентичного відео, це основоположне припущення руйнується. Наші епістемічні рамки для оцінки надійності та автентичності потребуватимуть фундаментального перекалібрування.
Ця технологія також викликає питання щодо ідентичності та власності. Якщо Google володіє детальною біометричною моделлю мого обличчя та голосу, що заважає компанії створювати вміст на мою схожість без моєї постійної згоди? Що станеться з цими даними, якщо мій обліковий запис зламано або придбано компанію? Технологічні компанії історично боролися з безпекою даних і конфіденційністю, і ставки на біометричні дані, які використовуються для створення синтетичних носіїв, вищі, ніж на звичайну особисту інформацію. Я досліджував політику компанії щодо збереження даних і процедури видалення, усвідомлюючи, що маю обмежений контроль над надзвичайно цінним цифровим активом.
Моторошне відчуття, яке я відчув, дивлячись на свій аватар, не було насамперед через страх антиутопічних сценаріїв. Швидше, це випливало з внутрішньої дивності спостереження за ідеальною копією мене, яка діяла незалежно, вимовляючи слова, які я вибрав, але промовляючи їх голосом, який звучав як мій, але не був таким. Це представляло дивне роздвоєння ідентичності — версію мене, яка могла існувати та діяти без моєї фізичної присутності. З філософської точки зору це викликає питання про автентичність і присутність, які виходять за межі технологічного в екзистенціальне.
Продовжуючи експериментувати з інструментом для аватарів Gemini, я знайшов законні способи використання, які захоплюють мене професійно, але водночас викликають у мене незручність у зв’язку з потенціалом цієї технології. Ця функція є справжнім прогресом у технології створення вмісту, пропонуючи можливості, які, імовірно, стануть стандартними інструментами в багатьох професіях протягом наступних кількох років. Проте це також являє собою важливу точку перегину у відносинах між автентичністю, медіа та довірою до цифрової комунікації. Ми ще не досягли точки, коли синтетичне відео неможливо відрізнити від автентичного відео, але ми ближче, ніж більшість людей усвідомлюють, і розрив зменшується з кожною ітерацією моделі.
Наразі я зберіг свої створені відео, але не ділився ними широко. Вони схожі на експерименти, а не на справжнє спілкування, артефакти дослідження нових технологій, а не на автентичні вирази, які я хочу асоціювати зі своєю ідентичністю. Проте я розумію, що ця різниця може ставати все більш розмитою, оскільки генеративне AI-відео стає все більш складним і звичним. Неймовірне відчуття, яке я відчув, може зникнути, коли суспільство колективно адаптується до синтетичних медіа, або воно може представляти виправдану інстинктивну реакцію на технологію, яка вимагає ретельного етичного розгляду. У будь-якому випадку, джин вийшов з пляшки, і творці, платформи, регулятори та суспільство в цілому повинні вдумливо орієнтуватися в наслідках світу, де ми можемо створювати ідеальних цифрових двійників кількома натисканнями на екран смартфона.
Джерело: Wired


