Dünyanın en büyük yapay zeka laboratuvarlarından biri olan OpenAI'deki araştırmacılar, insanların görmek istediklerini açıklayarak basit bir adımda dijital görüntüler oluşturmasına olanak tanıyan bir teknoloji geliştiriyor.
Araştırmacılar bir robottan ve sürrealist ressam Salvador Dali'den bahseden 2008 yapımı Wall-e adlı animasyon filmine gönderme yaparak bu yeni teknolojiye DALL-E adını verdiler.
Dijital fotoğraf üretiyor
OpenAI yapay zeka laboratuvarı, çalışma için Microsoft'tan 1 milyar dolarlık fon aldı, ancak teknolojiyi henüz halkla paylaşmıyor. Ancak geçtiğimiz günlerde, sistemin arkasındaki araştırmacılardan biri olan Alex Nichol, sistemin nasıl çalıştığını gösterdi.
Nichol, sistemden avokado şeklinde bir demlik istediğinde ve bu kelimeleri dev bir bilgisayar ekranına yazdırdığında, sistem ona koyu yeşil renkte bir avokado demliğinin on farklı görüntüsünü oluşturdu.
Nichol, “DALL-E avokado yaratmada gerçekten çok iyi” diye konuştu.
Ekrana –satranç oynayan kediler- yazıldığında 32 parçadan oluşan bir satrnaç tahtasının iki yanında oturan iki kediyi gösteren bir görsel oluşturdu. Ayı su altında trompet çalıyor yazıldığındaysa ayının trompetinin ucundan suyun yüzeyine doğru yükselen minik hava kabarcıklarını gösteren bir görsel oluşturdu.
DALL-E ayrıca görüntüleri düzenleyebiliyor. Örneğin Nichol ayının elindeki trompeti silip bir gitarla değiştirmesini istediğinde, sistem buna uydu ve ayının elinde gitar belirdi.
Yedi araştırmacıdan oluşan bir ekip, OpenAI'nin sonunda grafik sanatçılar gibi insanlar için bir araç olarak sunmayı planladığı ev dijital görüntüler oluştururken ve düzenlerken yeni kısayollar ve yeni fikirler sağlayacak teknolojiyi geliştirmek için iki yıl harcadı. Bilgisayar programcıları, yazılım kodu parçacıkları oluşturmak için OpenAI'nin benzer teknolojisine dayalı bir araç olan Copilot'u halihazırda kullanıyorlar.
DALL-E tarafından oluşturulan avokado çaydanlık görüntüleri
Yeni teknoloji endişe veriyor
Ancak birçok uzman DALL-E endişe verici buluyr ve bu tür bir teknoloji gelişmeye devam ettikçe, 2016 başkanlık seçimlerini sallamaya yardımcı olabilecek türden çevrimiçi kampanyaları besleyerek internette dezenformasyonun yayılmasına yardımcı olabileceğini söylüyorlar.
Arizona Üniversitesi’nde bilgisayar bilimi profesörü Subbarao Kambhampati, "Bunu iyi şeyler için kullanabilirsiniz, ancak kesinlikle her türlü çılgın, endişe verici uygulama için de kullanabilirsiniz ve buna karmaşık sahtekarlıklar da dahildir" dedi.
Yaklaşık beş yıl önce, dünyanın önde gelen yapay zeka laboratuvarları, dijital görüntülerdeki nesneleri tanımlayabilen ve hatta çiçekler, köpekler, arabalar ve yüzler dahil olmak üzere kendi görüntülerini oluşturabilen sistemler geliştirdi. Birkaç yıl sonra, laboratuvarlar komut dosyası oluşturma, makaleleri özetleme, soruları yanıtlama, tweet oluşturma ve hatta blog yazma konusunda aynı şeyleri yapabilen sistemler geliştirdi.
Şimdi, araştırmacılar yeni yapay zeka formları oluşturmak için bu teknolojileri bir araya getiriyor. DALL-E, hem dil özellikleri hem de görüntüleri işlediği ve bazı durumlarda ikisi arasındaki ilişkiyi kavradığı için ileriye doğru dikkate değer bir adım olma özelliği taşıyor.
Seattle'daki bir yapay zeka laboratuvarı olan Allen Yapay Zeka Enstitüsü'nün başkanı Oren Etzioni, "Artık daha iyi ve daha iyi teknoloji yaratmak için birden fazla, kesişen bilgi akışını kullanabiliriz" dedi.
Ancak bu yeni teknoloji mükemmel çalışmyor. Örneğin Nichol, DALL-E'den Eyfel Kulesi'ni aya koymasını istediğinde, bunu tam olarak kavrayamadı. Ay'ı kulenin üstüne gökyüzüne koydu. Kumla dolu bir oturma odası istediğinde, oturma odasından çok bir şantiyeye benzeyen bir resim ortaya çıktı.
Ancak Nichol, birkaç kelime ekleyerek veya çıkararak isteklerini biraz değiştirdiğinde, istediğini almayı başardı. Örneğin yeni durumda kumla dolu bir oturma odasında bir piyano istediğinde, görüntü daha çok oturma odasındaki bir kumsala benziyordu.
Nöral ağlar
DALL-E aslında yapay zeka araştırmacılarının beyindeki nöron ağı üzerinde gevşek bir şekilde modellenen matematiksel bir sistem olan sinir ağı dediği şeydir. Bu, akıllı telefonlarda sözlü komutları tanıyan ve sürücüsüz arabaların şehrin sokaklarında gezinirken yayaların varlığını tanımlayan teknolojinin aynısıdır.
Bir sinir ağı, büyük miktarda veriyi analiz ederek becerileri öğrenir. Örneğin, binlerce avokado fotoğrafındaki desenleri saptayarak bir avokadoyu tanımayı öğrenebilir. DALL-E, milyonlarca dijital görüntüyü ve her görüntünün neyi tasvir ettiğini açıklayan metin başlıklarını analiz ederken kalıpları arar. Bu sayede görseller ve kelimeler arasındaki bağlantıları tanımayı öğrenir.
Birisi DALL-E için bir görüntüyü tanımladığında, bu görüntünün içerebileceği bir dizi temel özellik oluşturulur. Özellik, bir trompetin kenarındaki çizgi veya bir oyuncak ayının kulağının tepesindeki eğri olabilir.
Daha sonra, difüzyon modeli adı verilen ikinci bir sinir ağı, görüntüyü oluşturur ve bu özellikleri gerçekleştirmek için gereken pikselleri üretir. Sistemi açıklayan bir araştırma makalesinde yakın zamanda açıklanan Dal-E'nin en son sürümü, genellikle fotoğraf gibi görünen yüksek çözünürlüklü görüntüler ürettiği belirtildi.
DALL-E genellikle birinin ne tanımladığını anlamakta başarısız olsa ve bazen ürettiği görüntüyü karıştırsa da, OpenAI teknolojiyi geliştirmeye devam ediyor. Araştırmacılar, daha büyük miktarlarda veri besleyerek bir sinir ağının becerilerini sıklıkla geliştirebilirler.
Araştırmacılar aynı kavramları yeni veri türlerine uygulayarak daha güçlü sistemler de kurabilirler. Allen Enstitüsü kısa süre önce, görüntü ve metnin yanı sıra sesi de analiz edebilen bir sistem oluşturdu. Ses parçaları ve altyazılar da dahil olmak üzere milyonlarca YouTube videosunu analiz ettikten sonra, TV şovlarında veya filmlerde havlayan bir köpek veya kapanan bir kapı gibi belirli anları belirlemeyi öğrendi.
Uzmanlar, araştırmacıların bu tür sistemleri geliştirmeye devam edeceğine inanıyor. Sonuç olarak, bu sistemler şirketlerin arama motorlarını, dijital asistanları ve diğer yaygın teknolojileri geliştirmesine ve grafik sanatçıları, programcılar ve diğer profesyoneller için yeni görevleri otomatikleştirmesine yardımcı olabilir.
Bununla birlikte, bu teknolojinin bazı eksiklikleri var. Çünkü yapay zeka sistemleri, becerilerini geniş elektronik metin, resim ve önyargılı veri koleksiyonlarından elde ettikleri için kadınlara ve beyaz olmayan insanlara karşı ayrımcılık yapar ve ayrıca pornografik içerik, nefret söylemi üretmek için kullanılabilirler. Nihayetinde uzmanlar, teknolojinin, insanların çevrimiçi gördükleri her şeyden şüphe duyacakları noktaya kadar yanlış bilgi yaratılmasını kolaylaştıracağına inanıyor.
"Sahte metin yapabiliriz. Birinin sesine metin koyabiliriz. Görüntüler ve videolar oluşturabiliriz. Çevrimiçi zaten dezenformasyon var, ancak endişe, bu dezenformasyonun yeni seviyelere taşınmasıdır." diyor Dr. Etzioni.
OpenAI şirketi, DALL-E üzerinde, dışarıdan gelenlerin istediği gibi kullanmaması için sıkı kontroller yapıyor ve ürettiği her resmin köşesine bilinçli olarak kendisine ait bir işaret koyuyor. Son olarak laboratuvar, Nisan ayı ortasında, yalnızca küçük bir grupla sınırlı olmak üzere için test etmek isteyenler için sistemin bir denemesini başlattı.
*Şarku’l Avsat okurları için New York Times’tan tercüme edilmiştir.