Google Gemini'yi Kullanarak Kendi Yapay Zeka Klonumu Oluşturdum

Dijital bir klon oluşturmak için Google'ın Gemini AI avatar aracını keşfetme. Gerçeğe yakın AI video oluşturmanın nasıl çalıştığını ve neden rahatsız edici olduğunu keşfedin.
Kendimin dijital versiyonunu yaratma ihtimalim, yalnızca birkaç yıl önce saf bilim kurgu gibi görünüyordu. Ancak ben burada, elimde Google'ın en yeni Gemini AI avatar aracını çalıştıran bir akıllı telefon tutuyordum ve uygulamanın beni sentetik bir kopyaya dönüştürmeye hazırlanmasını izliyordum. Teknoloji, yüzümü, sesimi ve tavırlarımı piksel mükemmelliğinde yeniden canlandıran gerçeğe yakın video içeriği oluşturmayı vaat ediyordu. Gelişmekte olan teknolojilerle ilgilenen biri olarak, bu kadar güçlü yapay zeka yeteneklerinin sonuçlarıyla ilgili aklımda dönen felsefi sorulara rağmen, bu yeniliği ilk elden test etme zorunluluğu hissettim.
Google, bu AI avatar oluşturma özelliğini, dijital varlıklarını ölçeklendirmek isteyen içerik oluşturucular, eğitimciler ve profesyoneller için devrim niteliğinde bir araç olarak konumlandırıyor. Şirket, bireylerin her kayıt oturumunda fiziksel olarak kamera karşısına çıkmalarına gerek kalmadan, geniş ölçekte kişiselleştirilmiş video içeriği oluşturabilecekleri bir gelecek öngörüyor. Bu, teorik olarak öğretmenlerin sınırsız ders varyasyonları oluşturmasına, etkileyicilerin tutarlı içerik programları sürdürmesine ve profesyonellerin farklı zaman dilimleri ve bağlamlarda müşterilerle iletişim kurmasına olanak tanıyabilir. Ancak bu tür bir teknolojiyi etkinleştirmenin etik boyutları yapay zeka etik topluluğu içinde hararetle tartışılmaya devam ediyor.
Kurulum süreci şaşırtıcı derecede basitti. Gemini uygulamasını Android cihazıma indirdikten sonra avatar oluşturma özelliğine gittim ve birkaç fotoğraf ve doğal konuştuğumu gösteren kısa bir video örneği sunmam istendi. Doğru bir dijital model oluşturmak için sistemin yüz özelliklerimi birden fazla açıdan yakalaması ve ses kalıplarımı analiz etmesi gerekiyordu. Birkaç dakika içinde yapay zeka biyometrik verilerimi işledi ve gerçekçi video içeriği oluşturmak için yeterli bilgiye sahip olduğunu doğruladı. Bu sürecin hızı dikkat çekiciydi; yalnızca on yıl önce profesyonel hareket yakalama stüdyoları ve haftalarca post prodüksiyon çalışması gerektiren bir şeydi bu.
İlk oluşturduğum video belki de en esrarengiz olanıydı. Kendimin dijital bir versiyonunu, bir masada otururken ve antrenman sırasında giydiğim gömleği giyerken yazdığım senaryolu bir mesajı iletirken izledim. Sentetik video kalitesi rahatsız edici derecede doğruydu. Avatar uygun aralıklarla gözlerini kırpıştırdı, bakışlarını doğal bir şekilde kaydırdı ve hatta duyguyu aktaran ince yüz ifadelerini taklit etti. Dudak senkronizasyonu neredeyse mükemmeldi; sağladığım ses kaydıyla, çoğu sıradan izleyicinin asla fark etmeyeceği küçük kusurlarla eşleşiyordu. Ancak sonuçta tanımlanamayacak kadar "yanlış" bir şey kaldı; araştırmacıların "tekinsiz vadi" olarak adlandırdığı bu fenomene, insanların yapay temsilleri tam olarak gerçek olmadan gerçekliğe çok yakın oldukları için rahatsız edici hale geldi.
Ses sentezi özel bir ilgiyi hak ediyordu. Sistem, bilgisayar tarafından üretilen genel bir ses kullanmak yerine, gerçek sesime oldukça benzeyen bir ses üretmek için konuşma kalıplarımı, aksanımı ve vokal ritmimi analiz etmişti. Belirli kelimeleri vurgulama tarzımı, bazı ünsüz harfleri telaffuz ederken boğazımda oluşan hafif hırıltıyı ve hatta cümleler arasındaki nefes alış verişlerini duyabiliyordum. Sanki kendi konuşmamı duyuyordum ama yapay bir mercekten hafifçe filtrelenmiştim. Beni iyi tanıyan biri muhtemelen odaklanmış dinlemedeki ince farkları tespit edebilir, ancak sıradan gözlemciler için ses ikna edici bir şekilde bana ait olacaktır.
Avatarın sınırlamalarının test edilmesi, teknolojinin şu anda nerede yetersiz kaldığını ortaya çıkardı. Karmaşık el hareketleri ve çerçeve boyunca dinamik hareketler içeren bir video oluşturmaya çalıştım. Avatarın elleri çoğunlukla sabit kalıyordu ve hareket ettiklerinde de hareketler sert ve inandırıcılıktan uzak görünüyordu. Teknoloji aynı zamanda aşırı kafa açıları ve hızlı hareketlerle de mücadele ediyor. Bir odada dolaşmayı veya fiziksel nesnelerle etkileşimi gerektiren içeriğin senaryosunu yazarsam avatar donar veya statik bir poza dönerdi. Bu kısıtlamalar, teknolojinin, eğitim içeriğinin, kurumsal iletişimlerin ve sosyal medyanın çoğunu kapsayan basit video formatı türü olan konuşma tarzı içerik için optimize edildiğini gösteriyor.
Yaratıcı bir bakış açısıyla bakıldığında, dijital içerik oluşturma olanakları gerçekten heyecan verici. Mesajınızı bir kez kaydedebildiğinizi ve daha sonra ek kayıt oturumları gerektirmeden farklı çekimler, arka planlar veya ince metin değişiklikleriyle düzinelerce varyasyon oluşturabildiğinizi hayal edin. Eğitimciler, bireysel öğrenci ihtiyaçlarını karşılayan kişiselleştirilmiş ders versiyonları oluşturabilir. Satış uzmanları potansiyel müşteriler için özelleştirilmiş video sunumları oluşturabilir. Müşteri hizmetleri temsilcileri, geniş ölçekte oluşturulurken kişisel hissettiren video yanıtları oluşturabilir. İçerik oluşturucular ve kurumlar için verimlilik açısından kayda değer kazanımlar elde edilecektir.
Ancak teknoloji aynı zamanda ciddi anlamda dikkate alınması gereken sorunlu senaryolara da kapı açıyor. Aslında asla söylemediğim şeyleri söylerken kendimin videolarını oluşturabilme kolaylığı, rıza ve özgünlük konusunda acil endişeleri artırıyor. Biyometrik verilerime erişimi olan biri teorik olarak ürünleri desteklediğim, tartışmalı açıklamalarda bulunduğum veya hiç katılmadığım etkinliklere katılıyormuş gibi göründüğüm videolar oluşturabilir. Bu, deepfake teknolojisinde, bireysel videoların yoğun emek gerektiren manipülasyonundan hızlı, endüstriyelleştirilmiş sentetik medya üretimine doğru ilerleyen önemli bir evrimi temsil ediyor. Yanlış bilgilendirme, sahtekarlık ve manipülasyonun sonuçları ciddidir.
Google, bu teknolojinin kötüye kullanılmasını önlemek amacıyla çeşitli güvenlik önlemleri uygulamaktadır. Sistem, bir avatar oluşturmadan önce açık izin gerektirir, izin sürecini kapsamlı bir şekilde belgelendirir ve Yapay zeka tarafından oluşturulan video içeriğini tanımlamak için filigranlama özellikleri içerir. Şirketin ayrıca aldatma veya dolandırıcılık amaçlı içerik oluşturulmasını yasaklayan hizmet şartları hükümleri bulunmaktadır. Ancak bu önlemler büyük ölçüde teknik uygulamaya ve kullanıcı dürüstlüğüne dayanıyor. Teknoloji kullanımının geçmişi, kararlı aktörlerin, özellikle de bunu yapmaya yönelik ekonomik teşvikler önemli olduğunda, kısıtlamaları aşmanın yollarını bulacağını gösteriyor.
Bu teknolojinin gündeme getirdiği daha kapsamlı soru, giderek dijitalleşen dünyamızda özgünlüğün doğasıyla ilgilidir. Sosyal medya profillerinin insanların hayatlarının filtrelenmemiş versiyonlarını temsil etmediğini zaten kabul ediyoruz; bunlar, izleyicinin kabulü için hazırlanmış küratörlüğünde sunumlardır. Ancak otantik deneyimlerin seçici sunumu ile tamamen kurgusal olanların sentetik yaratımı arasında bir ayrım var. Birinin konuştuğu bir videoyu izlediğimizde, bunun gerçekten olmuş bir şeyi temsil ettiği varsayımıyla hareket ederiz. Sentetik medya orijinal videodan ayırt edilemez hale gelirse bu temel varsayım çöker. Güvenilirliği ve özgünlüğü değerlendirmeye yönelik epistemik çerçevelerimizin temelden yeniden kalibre edilmesi gerekecektir.
Teknoloji aynı zamanda kimlik ve mülkiyetle ilgili soruları da gündeme getiriyor. Google yüzümün ve sesimin ayrıntılı bir biyometrik modeline sahipse şirketin benim sürekli iznim olmadan bana benzeyen içerik üretmesini engelleyen nedir? Hesabımın güvenliği ihlal edilirse veya şirket satın alınırsa bu verilere ne olur? Teknoloji şirketleri tarihsel olarak veri güvenliği ve mahremiyetiyle mücadele ediyor ve sentetik medya oluşturmak için kullanılan biyometrik verilerle ilgili riskler, geleneksel kişisel bilgilerle karşılaştırıldığında daha yüksek. Kendimi şirketin veri saklama politikalarını ve silme prosedürlerini araştırırken buldum ve son derece değerli bir dijital varlık üzerinde sınırlı kontrole sahip olduğumu fark ettim.
Avatarımı izlerken hissettiğim tüyler ürpertici duygu, öncelikle distopik senaryolardan duyulan korkuyla ilgili değildi. Daha ziyade, benim mükemmel bir kopyamın bağımsız olarak hareket ettiğini, seçtiğim kelimeleri söylediğim halde bunları henüz benimkine benzemeyen bir sesle konuştuğumu gözlemlemenin içgüdüsel tuhaflığından kaynaklanıyordu. Bu, tuhaf bir kimlik çatallanmasını temsil ediyordu; benim fiziksel varlığım olmadan var olabilen ve hareket edebilen bir versiyonum. Felsefi olarak bu durum, teknolojik olanın ötesinde varoluşsal olana uzanan özgünlük ve mevcudiyet hakkında soruları gündeme getiriyor.
Gemini avatar aracıyla denemeler yapmaya devam ettikçe, hem profesyonel olarak beni heyecanlandıran hem de teknolojinin potansiyeli konusunda beni rahatsız eden meşru kullanımlar buldum. Bu özellik, içerik oluşturma teknolojisinde gerçek bir ilerlemeyi temsil ediyor ve önümüzdeki birkaç yıl içinde birçok meslekte muhtemelen standart araçlar haline gelecek yetenekler sunuyor. Ancak bu aynı zamanda dijital iletişimde özgünlük, medya ve güven arasındaki ilişkide önemli bir dönüm noktasını da temsil ediyor. Henüz sentetik videonun orijinal videodan ayırt edilemeyeceği bir noktada değiliz ancak çoğu insanın düşündüğünden daha yakınız ve aradaki fark, modelin her tekrarında daralıyor.
Şimdilik oluşturduğum videolarımı kaydettim ancak geniş çapta paylaşmadım. Kimliğimle ilişkilendirmek istediğim özgün ifadelerden ziyade, gerçek iletişimden çok deneyler, yeni teknolojiyi keşfetmenin eserleri gibi geliyorlar. Ancak üretken yapay zeka videosu daha karmaşık ve sıradan hale geldikçe bu ayrımın giderek bulanıklaşabileceğinin farkındayım. Toplum toplu olarak sentetik medyaya uyum sağladıkça yaşadığım tekinsiz duygu kaybolabilir veya teknolojiye karşı dikkatli bir etik değerlendirme gerektiren haklı bir içgüdüsel tepkiyi temsil edebilir. Her iki durumda da, cin şişeden çıktı ve yaratıcıların, platformların, düzenleyicilerin ve toplumun, akıllı telefon ekranına birkaç dokunuşla kendimizin mükemmel dijital kopyalarını yaratabildiği bir dünyanın etkilerini genel olarak dikkatli bir şekilde yönlendirmesi gerekiyor.
Kaynak: Wired


