ByteDance, Piyasadaki En Gerçekçi DeepFake Aracı Olan OmniHuman-1’i Tanıttı
ByteDance’in araştırmacıları, Tiktok’un ana şirketi, bu hafta görüntüler ve diğer medyaya dayalı olarak insan videoları oluşturmak için OmniHuman adında yeni bir AI aracını tanıttı.
Acele mi Ediyorsun? İşte Hızlı Gerçekler!
- ByteDance, tek bir fotoğraftan gerçekçi hareket, stil ve davranışlarla video oluşturabilen en son AI aracı, OmniHuman-1’i tanıttı.
- Araştırma ekibi, gerçekçi deepfake’lere ulaşmak için uygulanan metodoloji ve stratejilerin daha fazla detayını içeren bir makale paylaştı.
- OmniHuman henüz halka açık değil.
AI aracının ilk versiyonu olan OmniHuman-1, gerçekçi fotoğrafçılıktan animasyona ve çizgi film tarzına kadar çeşitli görüntü stillerini destekleyen videolar oluşturabilme yeteneğine sahip. Ayrıca ses ve müzik varyasyonları sunuyor, çeşitli en boy oranlarına sahip ve gerçekçi hareketli görüntüler oluşturabiliyor. Çinli şirket, birkaç demo ile AI modelinin yeteneklerini sergiledi.
“OmniHuman, mevcut yöntemleri büyük ölçüde aşarak, özellikle ses olmak üzere zayıf sinyal girişleri üzerinden son derece gerçekçi insan videoları üretiyor,” diye Bytedance ekibinin Pazartesi günü yayınladığı makalede belirtildi. “Portreler, yarı vücut ya da tam vücut resimler gibi her türlü boyutta görüntü girişini destekler, çeşitli senaryolarda daha gerçekçi ve yüksek kaliteli sonuçlar sunar.”
Araştırma ekibi, bir “çok modlu hareket koşullandırma karma eğitim stratejisi” kullandıklarını açıkladı ve aracın yeteneklerine dair birkaç örnek sundu. Bu örnekler Albert Einstein ile bir dersin yeniden yaratılması, telif hakkı olmayan web sitelerinden alınan görüntülerle konuşmaların simülasyonunu ve ses veya video medyadan müzikal performansların oluşturulmasını içeriyordu.
ByteDance’in araştırma ekibi, dolandırıcılık riskleri konusunda uyardı – henüz AI aracını halka sunmamışlar ve bir tarih paylaşmamışlar – ve diğer etik endişeler hakkında. Şirket, modelin performansını göstermek için kullanılan görüntülerin ve videoların kamuya açık kaynaklardan alındığını garanti etti.
Forbes’a göre, Çinli şirket yeni modu eğitmek için 18,700 saatlik insan video verisi kullandı. Birçok uzman zaten yeni AI aracı hakkında düşüncelerini paylaştı.
“Sadece bir fotoğraftan bir şeyler yaratmak ve onun gerçekten konuşuyor ve gerçekten hareket ediyor gibi görünmesi teknolojik açıdan büyüleyici, ancak birçok olası olumsuz sonuçları da olabilir,” dedi Samantha G. Wolfe, NYU’s Steinhardt School of Culture, Education and Human Development’da (Kültür, Eğitim ve İnsan Gelişimi Okulu) öğretim görevlisi ve PitchFWD’nin kurucusu Forbes ile yaptığı bir röportajda. “İş liderlerinin veya politik liderlerin doğru olmayan bir şey söylediği sahte versiyonlar bir iş üzerinde veya bir ülke üzerinde büyük bir etkiye sahip olabilir.”
Wolfe’nin endişeleri sektördeki birçok uzman tarafından da paylaşılmaktadır. Siber güvenlik uzmanları yakın zamanda, karmaşık AI tarafından oluşturulan deepfake’lerle yeni bir dolandırıcılık dalgası hakkında uyarıda bulundular.
Yorum bırakın
Vazgeç