4 soruda OpenAI'ın "düşünebilen" yeni yapay zeka serisi

OpenAI'ın son modeli o1'in fiyatı, bazı kullanıcıların tepkisini çekiyor (Reuters)
OpenAI'ın son modeli o1'in fiyatı, bazı kullanıcıların tepkisini çekiyor (Reuters)
TT

4 soruda OpenAI'ın "düşünebilen" yeni yapay zeka serisi

OpenAI'ın son modeli o1'in fiyatı, bazı kullanıcıların tepkisini çekiyor (Reuters)
OpenAI'ın son modeli o1'in fiyatı, bazı kullanıcıların tepkisini çekiyor (Reuters)

OpenAI, "düşünme" becerisine sahip olduğunu öne sürdüğü yeni yapay zeka serisi o1'i dün (12 Eylül Perşembe) kullanıma sundu. 

Strawberry diye de bilinen yeni serinin o1-preview (ön izleme) ve o1-mini diye iki sürümü mevcut.

Model henüz sadece ChatGPT Plus ve Team kullanıcılarının yanı sıra 5. seviye API katmanına hak kazanan geliştiricilerin erişimine peyderpey açılıyor.

ChatGPT Enterprise ve Edu üyelerinin de gelecek haftadan itibaren araca erişebileceğini belirten şirket, ileride o1-miniyi bütün kullanıcılara ücretsiz sunmayı planlıyor. Fakat bunun için henüz bir tarih verilmedi.

Daha önceki modellerine 2,3,4 gibi isimler veren OpenAI, son serinin yepyeni becerilere sahip olması nedeniyle "sayacı sıfırladıklarını" ve bu nedenle o1 adını seçtiklerini belirtiyor.

Tabii bütün bunların bir bedeli var. Kullanımı mayısta çıkan öncülü GPT-4o'dan üç kat daha masraflı olan o1-preview'un geliştiricilere maliyeti 1 milyon girdi jetonu (token) başına 15 dolar, 1 milyon çıktı jetonu başına da 60 dolar.

Veri birimlerini ifade eden jetonlar, yapay zeka araçlarının büyük verileri parçalara ayırıp dili işlemesini sağlıyor. 1 milyon jeton yaklaşık 750 bin kelimeye denk geliyor. 

OpenAI, o1-mini versiyonun yüzde 80 daha ucuz olduğunu belirtiyor fakat bu sürüm diğeri kadar geniş bir bilgi yelpazesine sahip değil. 

Peki şirketin ön izleme veya bir ön sürüm olduğunu belirttiği o1, öncüllerinden farklı olarak neyi yapabiliyor, neyi yapamıyor ve insanlığın kendi bilişsel seviyesini geçen yapay zeka inşa etme çabasında nasıl bir adıma işaret ediyor?

1) Gerçekten düşünebiliyor mu?

Teknoloji sektöründeki en temel tartışmalardan biri, yapay zeka araçlarının becerilerini "düşünme" veya "muhakeme" gibi ifadelerle tanımlama etrafında dönüyor. 

Geniş dil modellerinin, devasa büyüklükte bilgi kümeleriyle eğitildiği ve sorgulara verdikleri cevaplarda bu veriler üzerinden olasılık temelli tahmin yürüttükleri göz önüne alınırsa, bazı uzmanların "düşünme" ifadesine itirazlarında haklılık payı var. 

Öte yandan bu araçlar insan beyni gibi akıl yürütme becerisine gittikçe daha fazla yaklaşıyor. 

OpenAI, o1 serisinin sorulara cevap vermeden önce daha uzun süre düşündüğünü ve vereceği yanıtların doğruluğunu kontrol ettiğini ifade ediyor.

Sisteme girilen soru karşısında "Düşünüyorum" gibi yanıtlar vermesi, gerçekten o sırada düşündüğü izlenimi yaratsa da o1'in insanlar gibi akıl yürüttüğünü söylemek mümkün değil. 

OpenAI'ın araştırma ekibinin lideri Jerry Tworek, yapay zeka modelinin düşünme biçimini insanlarınkiyle bir tutmadıklarını söylüyor. 

Arayüz ise yeni modelin problemleri çözerken daha fazla zaman harcadığını ve daha derine indiğini gösterme amacıyla bu şekilde tasarlanmış.

o1'i önceki OpenAI uygulamalarından ayıran temel özelliğiyse eğitilme biçiminde yatıyor. 

Eğitim bilimci ve öğretmenlerin aşina olabileceği pekiştirmeli öğrenme denen bu yöntem, doğru yanıtlar karşısında ödül, yanlış cevaplar karşısında da ceza verilmesi ilkesine dayanıyor.

Bu sayede deneme yanılmayla ilerleyen yapay zeka aracının, doğru yanıtlara ulaşma becerisi gelişiyor. Sorguları işlerken, insanların sorunları adım adım inceleyerek çözmesine benzer bir "düşünce zinciri" kullanıyor.

OpenAI, aracı "düşünmeye" iten bu yöntemin, doğruluğunu artırdığını ifade ediyor. 

2) Hangi alanlarda kullanılacak?

Karmaşık muhakeme görevlerinde kayda değer bir ilerlemeye ve yeni bir yapay zeka yeteneği seviyesine işaret ediyor. Bu nedenle sayacı tekrar 1'e sıfırlıyor ve bu seriye OpenAI o1 adını veriyoruz.

OpenAI'ın bu ifadelerle tanıttığı o1'in, dil becerilerinden ziyade bilimsel çalışmalar, veri işleme ve kodlamada daha iyi bir performans sergilemesi bekleniyor. Ayrıca o1-mini, daha küçük bir sürüm olmasına karşın özellikle kod üretmesi amacıyla geliştirildi. 

Yeni model kodlama ve matematikte sonuca ulaşma sürecini detaylandırdığı için bu alanlarda öğretmenlik yapma becerisinin önceki versiyonlardan daha iyi olması bekleniyor. 

Şirketin baş araştırma görevlisi Bob McGrew, yeni modelin ileri seviye matematik sorularında kendisinden daha iyi olduğunu belirterek kendisinin üniversitede matematik okuduğunu ekliyor.

OpenAI yeni modelin ayrıca bilim insanlarının hücre dizileme çalışmalarına ve fizikçilerin karmaşık matematiksel formüller üretmesine katkı sağlayacağını ifade ediyor. 

Ayrıca yapılan testlerde fizik, kimya ve biyolojinin bazı alanlarında doktora öğrencileriyle yarıştığı kaydedildi.

Şirketin baş bilim insanı Dr. Jakub Pachocki ve OpenAI teknik çalışanı Szymon Sido, New York Times'a yaptıkları sunumda, sohbet botunun çengel bulmacadan çok daha karmaşık akrostiş bulmacasını çözdüğü görüldü.

Yapay zeka aracı aynı zamanda doktora düzeyinde bir kimya sorusunu yanıtladı ve bir hastanın semptomları ve geçmişi hakkında ayrıntılı bir rapora dayanarak hastalığı teşhis etti.

3) GPT-4o'dan daha mı iyi?

Daha önceki modeller internetteki bilgilerle eğitildiği ve internette epey yanlış bilgi olduğu için hata yapma ihtimalleri artıyor. o1'in eğitilme biçimiyse bu hataları çok daha düşük seviyeye indirmesini sağlıyor. 

Yeni modelin; ses, görüntü ve yazıyla iletişim kuran GPT-4o'dan çok daha iyi performans gösterdiği alanlar olsa da bazı konularda gerisinde kalıyor. 

İki aracı da lise seviyesindeki Uluslararası Matematik Olimpiyatı'na sokan OpenAI, o1'in soruların yüzde 83'ünü, GPT-4o'nun ise sadece yüzde 13'ünü doğru çözdüğünü ifade ediyor. 

Thomson Reuters'tan yeni modeli test eden Pablo Arredondo, TechCrunch'a yaptığı açıklamada yasal belgeleri analiz etme ve hukuk fakültesine giriş sınavında da daha başarılı olduğunu söylüyor.

Strawberry takma adına sahip o1'in GPT-4o'yu geride bıraktığı bir diğer alan ise "strawberry" (çilek) kelimesinde kaç tane "r" harfi olduğunu bulmak.

Bu soruya "iki" yanıtını veren ChatGPT'nin önceki sürümleri internette alay konusu olmuştu. 

İlk başta çok zor bir görev gibi görünmese de yapay zeka araçları kelimeleri harf harf değil, jetonlar şeklinde işlediği için bu tip basit işlerde zorlanabiliyorlar. 

Ancak o1, daha detaylı düşünmesi ve kendisini kontrol etmesinden dolayı bu soruya doğru yanıtı vermeyi başardı. 

Öte yandan yeni model, internette arama yapma, metin ve görsel işleme gibi özelliklere henüz sahip değil. Ayrıca gerçek dünya hakkında GPT-4o kadar bilgisi de yok. 

Pennsylvania Üniversitesi Wharton İşletme Okulu'nda yapay zeka üzerine çalışan Ethan Mollick "Açıkçası o1-preview her şeyde daha iyi değil. Örneğin GPT-4o'dan daha iyi bir yazar değil" diyerek ekliyor: 

Ancak planlama gerektiren görevlerde ciddi değişiklikler sözkonusu.

OpenAI, yeni modelinde halüsinasyon sorununu da çözmeyi henüz başaramadı. Yapay zeka sohbet botlarının bazı bilgileri "uydurmasını" ifade eden halüsinasyon, bu araçların temel sorunu olmaya devam ediyor.

Modeli test eden Mollick, zorlu bir bulmacayı çözdüğünü ancak ipuçlarından birini uydurduğunu söylüyor. 

Yine de Tworek, "Bu modelin daha az halüsinasyon gördüğünü fark ettik" diyerek ekliyor: 

Ancak sorun hâlâ devam ediyor. Halüsinasyonları çözdüğümüzü söyleyemeyiz.

Son modelin bir diğer eksikliği de sorgulara yavaş cevap vermesi. Diğer sürümler neredeyse anında yanıtı sunarken, muhtemelen düşünme süresinden dolayı o1'in cevap vermesi çok daha uzun zaman alıyor.

Örneğin Mollick, bulmacayı çözmesinin 108 saniye sürdüğünü ifade ediyor.

OpenAI modelin ön izleme versiyonu olduğunu belirtirken, uzmanlar o1'in sonraki versiyonlarının hızlanmasını umuyor. 

4) İnsanlığa tehdit oluşturabilir mi?

Bazı yapay zeka araçları eğitimleri sırasında farklı kelimelerin beraber kullanılma sıklıklarını analiz ederek sözcüklerin birbirine yakınlığını tahmin ediyor. Örneğin "kedi" ve "köpek" kelimeleri birlikte daha sık kullanıldığı için yakın anlamlara sahip olmaları gerektiği sonucuna varıyor.

Bu modellerin "yapay zeka" ve "tehdit" ifadeleri arasında da böyle bir ilişki kurmuş olması muhtemel. 

Her yeni modelin piyasa sürülmesiyle akla gelen ilk sorulardan biri insanlığa varoluşsal bir tehdit yaratıp yaratmayacağı.

Sektörün önde gelen bazı isimleri bu tehlikeye karşı uyarırken bazı uzmanlar yapay zeka araçlarının nasıl kullanıldığının daha önemli olduğunu vurguluyor.

OpenAI'ın son sürümüyle bu araçların insan gibi düşünme becerisine bir adım daha yaklaşması da endişeleri artırabilir.

Ancak bu yazıdan da anlaşılabileceği üzere, o1'in becerileri henüz korkutucu bir düzeyin yakınından bile geçmiyor. 

Ars Technica'nın ifade ettiği gibi bir bulmacadaki 8 ipucunu çözmesi 108 saniye süren ve bir cevapta halüsinasyon gören bir yapay zeka modelinin potansiyel tehlike olduğunu söylemek abartıya kaçar. 

Öte yandan OpenAI'ın yanı sıra Meta ve Google gibi şirketlerin de çabaları ve son yıllardaki hızlı gelişmeler göz önüne alınırsa, insan seviyesine ulaşan yapay zeka araçları çok uzak olmayabilir.

Independent Türkçe, TechCrunch, Verge, Ars Technica, New York Times, OpenAI



İngiltere, suçluları takip etmek için yüz tanıma teknolojisinin kullanımını artırıyor

Big Brother Watch, yüz tanıma teknolojisinin kullanımının artırılmasını ciddi bir gizlilik ihlali olarak nitelendirdi (Arşiv)
Big Brother Watch, yüz tanıma teknolojisinin kullanımının artırılmasını ciddi bir gizlilik ihlali olarak nitelendirdi (Arşiv)
TT

İngiltere, suçluları takip etmek için yüz tanıma teknolojisinin kullanımını artırıyor

Big Brother Watch, yüz tanıma teknolojisinin kullanımının artırılmasını ciddi bir gizlilik ihlali olarak nitelendirdi (Arşiv)
Big Brother Watch, yüz tanıma teknolojisinin kullanımının artırılmasını ciddi bir gizlilik ihlali olarak nitelendirdi (Arşiv)

İngiltere hükümeti tarafından bugün yapılan bir açıklamada, polislerin suçluları yakalamak için yüz tanıma teknolojisinin kullanımını artıracağını duyururken bu teknolojinin kullanımını denetlemek üzere yeni bir kurum kurulmasını önerdi.

Bu teknoloji, son iki yılda yüz tanıma teknolojisini kullanarak tecavüz, aile içi şiddet ve şiddet suçları dahil olmak üzere bin 300 tutuklama gerçekleştiren Metropolitan Polisi tarafından halihazırda kullanılıyor.

Ancak, İngiltere merkezli sivil özgürlükler örgütü Big Brother Watch, yüz tanıma teknolojisinin kullanımının artırılmasının ciddi bir mahremiyet ihlali olduğunu belirtti.

Avrupa'daki yasaların halkı toplu yüz tanıma gözetiminden koruduğunu söyleyen Big Brother Watch’a göre ancak İngiltere, demokratik dünyadan ayrı bir ülke ve burada halk artık bu kameralar tarafından izleniyor ve neredeyse her gün şüpheli muamelesi görüyor.

Metropolitan Polisi, futbol maçları gibi büyük etkinliklerde, izleme listesindeki kişileri tespit etmek için canlı yüz tanıma teknolojisini halihazırda kullanıyor.

Polis Bakanı Sarah Jones yaptığı açıklamada, yüz tanıma teknolojisinin DNA eşleştirmesinden bu yana suçluları yakalamaya yardımcı olan en büyük atılım olduğunu söyledi.

Jones, sözlerini şöyle sürdürdü:

“Bu teknoloji, sokaklarımızdan binlerce tehlikeli suçluyu uzaklaştırmaya yardımcı oldu ve polisin güvenliğimizi sağlamasına destek olmak için muazzam bir potansiyele sahip.”

Hükümet, teknolojinin faydalarını ve gizlilik koruması da dahil olmak üzere halkın güvenliğini sağlamak için gerekli önlemleri incelemek üzere on haftalık bir danışma süreci başlatacağını açıklarken polisin yüz tanıma ve benzeri teknolojileri kullanımını denetlemek ve düzenlemek için tek bir kurum oluşturulmasını önerdi.


SpaceX daha fazla fırlatma için gereken izinleri aldı

Uluslararası Uzay İstasyonu'na malzeme taşıma görevini üstlenen bir SpaceX Falcon 9 roketi, 14 Eylül'de Florida'nın Cape Canaveral bölgesindeki Cape Canaveral Uzay Kuvvetleri Üssü'nün 40 numaralı kompleksinden fırlatılıyor (AP)
Uluslararası Uzay İstasyonu'na malzeme taşıma görevini üstlenen bir SpaceX Falcon 9 roketi, 14 Eylül'de Florida'nın Cape Canaveral bölgesindeki Cape Canaveral Uzay Kuvvetleri Üssü'nün 40 numaralı kompleksinden fırlatılıyor (AP)
TT

SpaceX daha fazla fırlatma için gereken izinleri aldı

Uluslararası Uzay İstasyonu'na malzeme taşıma görevini üstlenen bir SpaceX Falcon 9 roketi, 14 Eylül'de Florida'nın Cape Canaveral bölgesindeki Cape Canaveral Uzay Kuvvetleri Üssü'nün 40 numaralı kompleksinden fırlatılıyor (AP)
Uluslararası Uzay İstasyonu'na malzeme taşıma görevini üstlenen bir SpaceX Falcon 9 roketi, 14 Eylül'de Florida'nın Cape Canaveral bölgesindeki Cape Canaveral Uzay Kuvvetleri Üssü'nün 40 numaralı kompleksinden fırlatılıyor (AP)

SpaceX, sahada yapılan çevresel incelemenin ardından, şirketin gelecekteki operasyonlarında kullanılmak üzere tarihi Cape Canaveral Uzay Kuvvetleri Üssü (CCSFS) fırlatma rampasını yeniden geliştirmek için ABD Hava Kuvvetleri Bakanlığı'ndan onay aldı.

Askeri yetkililer 20 Kasım'da SpaceX'e, şirketin Starship uzay aracının inşası, fırlatma öncesi faaliyetleri ve uçuşları için Uzay Fırlatma Kompleksi 37'yi kullanma yetkisi verdi. Florida Today'in haberine göre Federal Havacılık İdaresi (FAA) sahanın analizini ve anlaşmayı tamamladıktan sonra bu karar, yılda 76 fırlatma ve 152 inişe olanak sağlayacak.

SpaceX Fırlatma Başkan Yardımcısı Kiko Dontchev pazartesi günü yaptığı sosyal medya paylaşımında, "SLC-37'yi Starship'le hayata döndürmekten dolayı çok heyecanlıyız!!! Hadi gidelimmmmmmm" dedi.

SpaceX, Starship fırlatmaları için "Uzay Fırlatma Kompleksi 37'yi geliştirme" planları kapsamında inşaatın halihazırda başladığını sosyal medyadan bildirdi. 

Şirket, "Dünyanın önde gelen uzay limanı gelişmeyi sürdürerek havalimanı benzeri operasyonlara olanak sağlarken, Florida'daki üç fırlatma rampasıyla Starship, Amerika'nın ulusal güvenliğini ve Artemis hedeflerini desteklemeye hazır olacak" ifadelerini kullandı.

ABD Hava Kuvvetleri'ne (USAF) göre SpaceX'in kompleksteki faaliyetleri ulusal güvenlik ihtiyaçlarına ve hedeflerine odaklanacak.

USAF kararıyla ilgili kayıtlarda şu ifadelere yer verildi:

 CCSFS'deki Starship-Super Heavy Operasyonları; [Savaş Bakanlığı] için görev açısından temel işlevleri temin edecek, Uzay Kuvvetleri'nin mevcut ve gelecek görevlerindeki ihtiyaçlarını karşılamasını sağlayacak ve fırlatma gereksinimlerindeki öngörülen hızlı artışı karşılamak için gereken sivil fırlatma kabiliyetlerini destekleyecek.

FAA'in yakın tarihli bir tahminine göre gelecek 10 yıl içinde uzay fırlatmalarında önemli bir artış yaşanacak.. 2025'te 183 operasyon gerçekleşti. Kurum, 2034'te yaklaşık 566 operasyon olacağını tahmin ediyor. Rapora göre bu operasyonlar uydu montaj ve bakım görevlerini, Mars keşiflerini ve uzay turizmini içerecek.

thy
SpaceX'in Teksas'taki Starbase tesisinde Starship fırlatmaya hazırlanıyor (SpaceX)

SpaceX, 2025'teki 103. yörünge roket fırlatışını salı günü Cape Canaveral'dan gerçekleştirdi. Bu operasyonda, yeni Starlink uydularını konuşlandırmak üzere yörüngeye bir Falcon 9 roketi gönderildi. Fırlatma bugün TSİ 01.18'de gerçekleşti.

Cape Canaveral'a gelen değişikliklere ek olarak yakındaki Kennedy Uzay Merkezi de SpaceX'in yeniden kullanılabilir, ağır yük uzay aracı Starship için bir fırlatma kompleksi inşa ediyor.

Space Launch Delta 45 komutanı Albay Brian Chatman, Florida Today'e yaptığı açıklamada, "Starship'in gelecek yılın başlarında veya ortalarında [Kennedy Uzay Merkezi'ne] fırlatma için varmasını bekliyoruz. Ve o zaman aracı destekleyecek menzile sahip olacağız" dedi.

Independent Türkçe


Çin'den Matematik Olimpiyatları'nda altın madalya alan ücretsiz yapay zeka

1 Eylül 2025'te Almanya'nın batısındaki Frankfurt am Main kentinde bir dizüstü bilgisayar ekranındaki DeepSeek AI logosu görülüyor (Kirill Kudryavtsev/AFP)
1 Eylül 2025'te Almanya'nın batısındaki Frankfurt am Main kentinde bir dizüstü bilgisayar ekranındaki DeepSeek AI logosu görülüyor (Kirill Kudryavtsev/AFP)
TT

Çin'den Matematik Olimpiyatları'nda altın madalya alan ücretsiz yapay zeka

1 Eylül 2025'te Almanya'nın batısındaki Frankfurt am Main kentinde bir dizüstü bilgisayar ekranındaki DeepSeek AI logosu görülüyor (Kirill Kudryavtsev/AFP)
1 Eylül 2025'te Almanya'nın batısındaki Frankfurt am Main kentinde bir dizüstü bilgisayar ekranındaki DeepSeek AI logosu görülüyor (Kirill Kudryavtsev/AFP)

Çin merkezli girişim DeepSeek, prestijli Uluslararası Matematik Olimpiyatları'nda (IMO) altın madalya kazanabilecek ilk açık yapay zeka modelini piyasaya sürdü.

Sadece basit cevaplar üretmek yerine muhakeme yeteneklerini gösteren Math-V2 modeli bu yılki IMO'da, insan katılımcıların yalnızca yüzde 8'inin erişebildiği bir başarıya imza atarak altın seviye puanına ulaştı.

DeepSeek modeli artık Hugging Face ve GitHub geliştirici platformlarında halkın kullanımına sunarak herkesin aracı ücretsiz bir şekilde çalıştırmasına veya değiştirmesine olanak sağladı.

Hugging Face'in kurucu ortağı ve CEO'su Clement Delangue, "Dünyanın en iyi matematikçilerinden birinin beynine ücretsiz sahip olduğunuzu ve onu araştırma amacıyla keşfettiğinizi, ince ayar yaptığınızı, optimize ettiğinizi ve kendi donanımınızda çalıştırdığınızı hayal edin" diyor.

Hiçbir sınırlama, zayıflatma [gücü azaltma], onu geri çekebilecek hiçbir şirket veya hükümet yok. Bu, kelimenin tam anlamıyla yapay zeka ve bilginin en iyi şekilde demokratikleşmesi.

Google DeepMind ve ChatGPT'nin yaratıcısı OpenAI'ın geliştirdiği modeller yıllık IMO'da altın seviyesinde performans gösterdi ancak iki şirket de modelleri açık kaynak olarak paylaşmadı.

DeepMind'ın modeli halihazırda premium Ultra paketi abonelerinin erişimine açıkken, OpenAI henüz kendi modelini kamuoyuna açık olarak çıkarmadı.

Şirketinin araştırmacılarına göre DeepSeek'in modeli, "kendini doğrulama" yeteneğini kanıtlayarak çözümleri bilinmeyen matematiksel problemleri çözmeyi başardı.

Araştırmacılar, bunun mevcut yapay zeka sistemlerindeki önemli bir darboğazı aşmayı sağladığını çünkü bu sistemlerin, genellikle kolayca doğrulanabilen çözümleri olan görevlerde iyileşme eğilimi gösterdiğini söylüyor.

DeepSeek, bu yılın başlarında piyasaya sürdüğü büyük dil modelinin (BDM), OpenAI'ın ChatGPT'si gibi rakiplerinden çok daha düşük bir maliyetle geliştirildiği iddialarıyla manşetlere çıkmıştı.

Hızla ABD'de en çok indirilen ücretsiz uygulama haline gelmesiyle ABD Başkanı Donald Trump modeli, teknoloji sektörü için bir "uyandırma çağrısı" diye tanımlamıştı.

Çin'de geliştirilen yapay zeka teknolojilerinin kullanımıyla ilgili veri güvenliği endişeleri nedeniyle birçok eyalet, uygulamayı devlet cihazlarında halihazırda yasakladı.

Ayrıca İtalyan düzenleyiciler de DeepSeek'in ana şirketlerinin olası veri ihlallerini gerekçe göstererek ülke çapında bir yasaklama emri vermişti. Bu şirketlerin, modelin GDPR (Avrupa Birliği Genel Veri Koruma Tüzüğü) veri koruma yasalarına uygunluğunu kanıtlaması gerekiyor.

Independent Türkçe