5 soruda OpenAI'ın yeni yapay zeka aracı Operator

Özerk yapay zeka araçları geliştirme yarışı kızışıyor

OpenAI'ın yeni aracı büyük ölçüde kendi başına çalışabiliyor (AP)
OpenAI'ın yeni aracı büyük ölçüde kendi başına çalışabiliyor (AP)
TT

5 soruda OpenAI'ın yeni yapay zeka aracı Operator

OpenAI'ın yeni aracı büyük ölçüde kendi başına çalışabiliyor (AP)
OpenAI'ın yeni aracı büyük ölçüde kendi başına çalışabiliyor (AP)

OpenAI, bilgisayarda tıpkı insanlar gibi alışveriş yapmaktan, restoranda yer ayırtmaya kadar çeşitli görevleri yerine getirebilen yapay zeka aracını piyasaya sürdü.

Şirketin dün (23 Ocak Perşembe) tanıttığı Operator, kullanıcıya yol göstermenin ötesine geçerek ekrandaki tuşları kullanıyor, arama çubuğuna yazı yazıyor ve formları dolduruyor.

Araç henüz sadece ABD'deki ChatGPT Pro üyelerinin erişimine açık. Şirket yapay zeka modelini diğer ülkelere ve Plus, Team ve Enterprise kullanıcılarının hizmetine sunmayı planlıyor fakat bunlar için henüz bir tarih verilmedi.

OpenAI CEO'su Sam Altman, dün yaptığı açıklamada "Avrupa'ya gelmesi maalesef biraz zaman alacak" ifadelerini kullandı. 

Altman bu yılın başında yayımladığı blog yazısında yapay zeka aracılarının (AI Agent) 2025'te "iş gücüne katılabileceğini" öne sürmüştü. Yapay zeka aracıları, kendi başına görevleri yerine getirebilen modelleri ifade ediyor. 

Çok geçmeden piyasaya sürülen Operator, Altman'ın beklentilerine giden yolda önemli bir adıma işaret ediyor.

1) Nasıl çalışıyor?

Operator, OpenAI'ın Bilgisayar Kullanan Aracı (Computer-Using Agent / CUA) adlı yeni yapay zeka modeliyle çalışıyor.

Kendisine bir görev verildiğinde ekran görüntüsü alıyor ve şirketin geniş dil modeli GPT-4o'nun görsel becerilerinden faydalanarak görüntüyü analiz ediyor. Ardından ne yapması gerektiğine karar verip bilgisayar ekranında işlemleri gerçekleştirmeye başlıyor.

CUA'in en önemli özelliği, uygulama programlama arayüzü (API) yerine, kullanıcıların karşılaştığı arayüzle etkileşime girecek şekilde eğitilmesi. 

Bu sayede insanlar gibi ekrandaki tuşlara basıp arama yapabiliyor. 

OpenAI ekibinden Reiichiro Nakano, "Modellerin yazılımı kullanma şekli genellikle özel API'lar aracılığıyla gerçekleşiyor" diyor. Bu durumun pek çok uygulama ve siteye erişimi engellediğini söyleyen Nakano ekliyor: 

Ancak insanların günlük olarak kullandığı arayüzün aynısını kullanabilen bir model yaratınca, daha önce erişilemeyen yepyeni bir yazılım yelpazesinin önü açılıyor.

2) Neler yapabiliyor?

OpenAI, Operator'ın halihazırda "araştırma önizlemesi" versiyonunu piyasaya sürdüğünü ve kullanıcıların geri bildirimleriyle aracın gelişeceğini ifade ediyor.

Tıpkı ChatGPT ve diğer yapay zeka sohbet botları gibi muazzam bir bilgi kümesiyle eğitilen Operator, insanların internet sitelerini nasıl kullandıklarını gösteren görüntülerle geliştirildi. 

Kullanıcılar operator.chatgpt.com⁠ (Türkiye'de kullanıma sunulmadı) sitesinden açılan sisteme, yapılmasını istediği görevi yazıyor ve Operator, tarayıcısında kendi başına bu işi yerine getiriyor.

Örneğin bir yemek tarifini bulup gerekli malzemeleri alışveriş sepetine ekliyor veya istenen bölgedeki uygun restoranları bulup rezervasyon yaptırıyor. 

OpenAI araştırmacısı Yash Kumar, "Tıpkı bizim yaptığımız gibi internet sitelerinde gezinip işlem yapabiliyor" diyor. 

Kullanıcılar bu esnada Operator'ın işleyişini takip edebiliyor ve araç, küçük bir pencerede hangi işlemleri yaptığını yazıyor.

Ayrıca istendiği zaman veya yapay zeka aracı bir hata yaptığında müdahale edilebiliyor. Bunun yanı sıra sipariş vermek veya bir e-postayı göndermek gibi önemli işlemlerden önce kullanıcının onay vermesi gerekiyor.

Kumar "Yardıma ya da onaya ihtiyaç duyarsa, size soruyor ve siz de cevaplayabiliyorsunuz" diye açıklıyor.

Şifre veya kredi kartı bilgileri kullanıcı tarafından giriliyor ve Operator, bu esnada ekran görüntüsü almayı bırakıyor.

OpenAI; DoorDash, eBay, Instacart, StubHub ve Uber gibi alışveriş şirketleriyle işbirliği yaptığını ve Operator'ın bunların hizmet kurallarına göre hareket ettiğini belirtiyor.

Şirket, kendi tarayıcısını kullanan aracın aynı anda birden fazla görevi yerine getirebildiğini de belirtiyor. Ancak Operator'ın aynı anda yapılabilecek görev sayısına "dinamik bir limit" koyduğunu ve bu sayının değişebileceğini ekliyor.

3) Ne yapamıyor?

Operator'ın mevcut versiyonu, ayrıntılı slaytlar oluşturmak, karmaşık takvimleri yönetmek veya standart olmayan sitelerin arayüzleriyle etkileşim kurmak gibi "karmaşık veya özel görevleri güvenilir bir şekilde yerine getiremiyor". 

OpenAI, aracın henüz e-posta göndermediğini veya takvimdeki etkinlikleri silmediğini ancak ileride bu özellikleri de sunabileceklerini ifade ediyor.

Yapay zeka modeli her ne kadar internet sitelerinde insanlar gibi davransa da makinelerle insanları ayırt etmek için geliştirilen CAPTCHA bulmacalarını da çözemiyor.

Operator'la ilgili kısıtlamalardan bir diğeriyse, günlük limiti olması. Aynı anda yapılacak işlemlerin yanı sıra bir gün içinde verilebilecek görevlerin de sayısı sınırlı. 

Kumar, ChatGPT ve diğer sohbet botları gibi Operator'ın da deneysel bir teknoloji olduğunu ve gelişmeye devam edeceğini söylüyor. Araştırmacı yeni model için "Dünyadaki en güçlü şey değil" diyerek ekliyor: 

Ama bu tür teknolojilerin eski versiyonlarından çok daha iyi.

4) Ne kadar güvenli?

OpenAI, daha önceki araçlarına kıyasla çok daha fazla özerkliğe sahip Operator için ciddi güvenlik önlemleri almış gibi görünüyor.

Şifreler ve kredi kartı bilgileri girilirken ekran görüntüsü almamasının yanı sıra yeni model, kumar gibi içeriklerle ilişkili sitelere de giremiyor. 

Ancak uzmanlar aracın geleceğiyle ilgili endişe duyuyor. Yapay zeka araçlarının güvenliği üzerine yazılar kaleme alan bilgisayar programcısı Simon Willison şöyle diyor:

Dünyanın geri kalanı bu modeli keşfetmeye başladığında, araca karşı her türlü yeni ve başarılı saldırılar görmeyi bekliyorum.

Willison'ın sözünü ettiği saldırılar, geniş dil modellerine kötü niyetli girdileri meşru istekler gibi göstererek yapay zeka sistemlerini hassas verileri sızdıracak şekilde manipüle etmeyi içeriyor. 

OpenAI da bu riskleri kabul ederek "gerçek dünya senaryolarının karmaşık yapısını modellemenin zorluğuna ve düşmanca tehditlerin dinamik doğasına" değiniyor.

Bunun yanı sıra Operator, görevleri yaparken düzenli olarak ekran görüntüsü alıyor. OpenAI bu bilgileri Operator'ın gelecekteki sürümlerini eğitmek için kullanabilir.

Diğer yandan şirket, verilerinin aracı eğitmek için kullanılmasını istemeyen kişilerin ChatGPT ayarlarından bunu değiştirebileceğini ifade ediyor.

Ayrıca tek bir tuşla Operator'ın bütün tarayıcı geçmişi silinebiliyor ve bütün sekmeler kapatılabiliyor.

Willison ise kullanıcıların kendi güvenlik önlemlerini almasını öneriyor: 

Operator'a yaptırdığınız her görev için yeni bir oturum başlatarak geçmişte araç üzerinden kullandığınız herhangi bir site için kimlik bilgilerinize erişemediğinden emin olun. Sizin adınıza para harcamasını istiyorsanız, ödeme aşamasına gelmesine izin verin, ardından ödeme bilgilerinizi verin ve hemen ardından oturum geçmişini silin.

5) Benzer araçlardan daha mı iyi?

Son aylarda Google ve Anthropic gibi şirketler de benzer yapay zeka aracılarını tanıtmıştı.

Google'ın Project Mariner'ı ve Anthropic'in Computer Use'u, Operator'a benzer bir arayüzde, ekran görüntüleri alarak çalışyor.

OpenAI, yeni modelinin bu iki araçtan daha iyi performans gösterdiğini savunuyor. 

Massachusetts Teknoloji Enstitüsü'nün (MIT) bilim ve teknoloji dergisi MIT Technology Review'a göre aracın tarayıcıdaki görevleri ne kadar iyi yerine getirdiğini değerlendiren bir testte CUA yüzde 87, Mariner yüzde 83,5 ve Computer Use yüzde 56 başarı gösterdi.

PDF dosyalarını birleştirme veya bir görüntüyü değiştirme gibi daha genel bilgisayar görevlerini ölçen OSWorld testindeyse CUA yüzde 38, Computer Use ise yüzde 22 başarı gösterdi. Diğer yandan insanlar yüzde 72'lik bir performans sergiledi.

Ayrıca Operator, bilgisayardaki tarayıcı yerine, talimatları bir OpenAI sunucusunda çalışan uzak bir tarayıcıya göndermesiyle diğer sistemlerden ayrılıyor. OpenAI, bu özelliğin sistemi daha verimli hale getirdiğini öne sürüyor.

Kumar, bulut sisteminde çalışmasından dolayı Operator'ın aynı anda birden fazla görevi yerine getirebildiğini söylüyor.

Halihazırda OpenAI'ın yapay zeka aracısı daha önde gidiyor gibi görünürken, elbette gelecekte bu durum değişebilir. 

Ancak MIT Technology Review'da yazan Will Douglas Heaven'a göre asıl dikkat edilmesi gereken şey, üç büyük şirketin aynı dönemde benzer araçlar çıkarması:

Dünyanın en iyi üç yapay zeka şirketinin aracı tabanlı modellerin ne olabileceği hakkında aynı vizyonda birleşmesi bir şeyi açıkça ortaya koyuyor. Yapay zeka üstünlüğü için verilen savaşın yeni bir sınırı var: bilgisayar ekranlarımız.

Kaynaklar: OpenAI, TechCrunch, Ars Technica, New York Times, MIT Technology Review, IBM, Simon Willison Weblog, Sam Altman's Blog



Çin'in yapay zeka atılımı: "Düşünebilen model, OpenAI'yı geride bıraktı"

ABD, gelişmiş yapay zeka teknolojilerinin Çin'e girmesini daha sıkı kontrol etme hazırlığı yapıyor (Reuters)
ABD, gelişmiş yapay zeka teknolojilerinin Çin'e girmesini daha sıkı kontrol etme hazırlığı yapıyor (Reuters)
TT

Çin'in yapay zeka atılımı: "Düşünebilen model, OpenAI'yı geride bıraktı"

ABD, gelişmiş yapay zeka teknolojilerinin Çin'e girmesini daha sıkı kontrol etme hazırlığı yapıyor (Reuters)
ABD, gelişmiş yapay zeka teknolojilerinin Çin'e girmesini daha sıkı kontrol etme hazırlığı yapıyor (Reuters)

Çin merkezli teknoloji şirketi DeepSeek, yeni yapay zeka modelini açık kaynaklı olarak yayımladı. Şirket yeni araçlarının, OpenAI'ın benzer modellerini geride bıraktığını öne sürüyor.

DeepSeek, Kasım 2024'te önizleme versiyonunu kullanıma sunduğu R1 serisini, açık bir MIT lisansı altında 20 Ocak Pazartesi günü piyasaya sürdü. 

MIT lisansı sayesinde yapay zeka modelinin kodu incelenebiliyor, değiştirilebiliyor ve ticari olarak kullanılabiliyor. 

R1, OpenAI'ın geçen yıl çıkan o1 serisi gibi "düşünebilen" veya "mantık yürüten" yapay zeka sınıfında yer alıyor. 

ChatGPT gibi geniş dil modellerinden farklı çalışan bu araçlar, verdikleri yanıtların doğruluğunu kontrol ediyor ve bu nedenle cevap vermeleri biraz daha zaman alıyor. Ancak hata yapma ihtimalini azaltan "düşünce zinciri" sistemi, özellikle bilimsel çalışmalarda ciddi fayda sağlıyor. 

DeepSeek, R1'in matematik, kelime problemleri ve programlama gibi testlerde OpenAI'ın o1'inden daha iyi performans gösterdiğini bildiriyor. Şirketin verilerine göre R1'in geride kaldığı testlerde bile iki model arasında çok az fark var.

Diğer yandan Ars Technica, yapay zeka testlerinin gerçek performansı her zaman yeterince iyi yansıtmadığını ve bu sonuçların henüz bağımsız bir şekilde doğrulanmadığını ifade ediyor.

R1 ailesinin en gelişmiş versiyonu 671 milyar parametre içeriyor. Parametreler temelde modelin problem çözme becerilerinin ne kadar iyi olduğunu gösteriyor. 

Şirket, R1'in 1,5 milyarla 70 milyar parametre arasında değişen "damıtılmış" versiyonlarını da yayımladı. Bunların en küçüğü dizüstü bilgisayarda çalışabilirken, en gelişmiş versiyonu daha güçlü bir donanım gerektiriyor. 

TechCrunch'a göre DeepSeek'in yeni yapay zeka ailesi, performansının yanı sıra o1'den yüzde 90 civarında daha ucuza satılmasıyla da öne çıkıyor. Ayrıca açık kaynaklı modeller genellikle o1 gibi muadillerinin gerisinde kaldığı için R1, teknoloji meraklılarının dikkatini çekti. 

George Mason Üniversitesi'nde yapay zeka alanında çalışan Dean Ball, X'teki gönderisinde şöyle yazdı:

DeepSeek'in damıtılmış modellerinin etkileyici performansı, çok yetenekli muhakeme cihazlarının yaygın bir şekilde çoğalmaya devam edeceği ve yukarıdan aşağıya herhangi bir kontrol rejiminin gözünden uzakta, yerel donanımlarda çalıştırılabileceği anlamına geliyor.

Yeni yapay zeka modelinin, Çin merkezli diğer araçlar gibi karşılaştığı bir sorun var. Asya ülkesindeki yasalara göre "temel sosyalist değerleri içermesi" gereken araçlar, Tayvan'ın özerkliği gibi belirli konular hakkında yanıt vermiyor. Ancak model bulutta değil, Çin dışında yerel olarak çalıştırıldığında böyle bir sınırlama yaşanmıyor. 

ABD ve Çin arasındaki yapay zeka yarışı

DeepSeek'in son serisi, ABD'nin yapay zeka teknolojilerini Çin'e satışına daha fazla kısıtlama getirmeyi düşündüğü bir dönemde çıktı. 

Çin'deki şirketlerin gelişmiş yapay zeka çipleri satın alması daha önce engellenmişti. Ancak görevden ayrılan Joe Biden yönetiminin teklif ettiği yeni düzenlemeler yürürlüğe girerse kısıtlamaların kapsamı genişleyecek. Uzmanlar bu değişikliğin, Çin'in özellikle Ortadoğu'daki ülkeler aracılığıyla ABD çiplerine erişmesini engellemeyi amaçladığını söylüyor. 20 Ocak'ta göreve başlayan Donald Trump, bu teklifle ilgili henüz yorum yapmadı.

Ancak son gelişmelere bakılırsa ABD'nin kısıtlamaları Çin merkezli teknolojilerin önüne geçemiyor. 

TechCrunch, DeepSeek'in yanı sıra Çin merkezli Alibaba ve Kimi'nin de o1'i geride bıraktığı öne sürülen yapay zeka modelleri geliştirdiğini aktarıyor. 

Ayrıca DeepSeek, Aralık 2024'te DeepSeek-V3 adlı başka bir yapay zeka modelini piyasaya sürmüştü. ChatGPT'ye rakip olan araç, GPT-4o ve Anthropic'in Claude Sonnet 3.5'ini yakalamış, Meta ve Alibaba teknolojilerini geride bırakmıştı. 

Şirket, V3'ü sadece iki ayda 5,5 milyon dolara geliştirdiğini öne sürüyor. Uzmanlar bu miktarın, Silikon Vadisi'nde üretilen araçlara harcananın çok altında kaldığını ifade ediyor.

New York Times'a göre ABD'nin kısıtlamalarının, Çinli bilim insanlarını daha yaratıcı yöntemler bulmaya itmesiyle gelişmiş teknolojiler ortaya çıkıyor olabilir. 

ChatGPT'nin eğitim verilerini işlemek için 10 bin Nvidia GPU'ya ihtiyaç duyduğu tahmin edilirken, DeepSeek mühendisleri V3'ün sadece 2 bin çiple eğitildiğini söylüyor.

OpenAI'ın stratejik ortaklarından Microsoft'un CEO'su Satya Nadella, bu hafta İsviçre'nin Davos kentinde düzenlenen Dünya Ekonomik Forumu'nda "Çin'deki gelişmeleri çok ama çok ciddiye almalıyız" ifadelerini kullandı.

Independent Türkçe, TechCrunch, Ars Technica, Live Science, New York Times, CNN