4 soruda OpenAI'ın "düşünebilen" yeni yapay zeka serisi

OpenAI'ın son modeli o1'in fiyatı, bazı kullanıcıların tepkisini çekiyor (Reuters)
OpenAI'ın son modeli o1'in fiyatı, bazı kullanıcıların tepkisini çekiyor (Reuters)
TT

4 soruda OpenAI'ın "düşünebilen" yeni yapay zeka serisi

OpenAI'ın son modeli o1'in fiyatı, bazı kullanıcıların tepkisini çekiyor (Reuters)
OpenAI'ın son modeli o1'in fiyatı, bazı kullanıcıların tepkisini çekiyor (Reuters)

OpenAI, "düşünme" becerisine sahip olduğunu öne sürdüğü yeni yapay zeka serisi o1'i dün (12 Eylül Perşembe) kullanıma sundu. 

Strawberry diye de bilinen yeni serinin o1-preview (ön izleme) ve o1-mini diye iki sürümü mevcut.

Model henüz sadece ChatGPT Plus ve Team kullanıcılarının yanı sıra 5. seviye API katmanına hak kazanan geliştiricilerin erişimine peyderpey açılıyor.

ChatGPT Enterprise ve Edu üyelerinin de gelecek haftadan itibaren araca erişebileceğini belirten şirket, ileride o1-miniyi bütün kullanıcılara ücretsiz sunmayı planlıyor. Fakat bunun için henüz bir tarih verilmedi.

Daha önceki modellerine 2,3,4 gibi isimler veren OpenAI, son serinin yepyeni becerilere sahip olması nedeniyle "sayacı sıfırladıklarını" ve bu nedenle o1 adını seçtiklerini belirtiyor.

Tabii bütün bunların bir bedeli var. Kullanımı mayısta çıkan öncülü GPT-4o'dan üç kat daha masraflı olan o1-preview'un geliştiricilere maliyeti 1 milyon girdi jetonu (token) başına 15 dolar, 1 milyon çıktı jetonu başına da 60 dolar.

Veri birimlerini ifade eden jetonlar, yapay zeka araçlarının büyük verileri parçalara ayırıp dili işlemesini sağlıyor. 1 milyon jeton yaklaşık 750 bin kelimeye denk geliyor. 

OpenAI, o1-mini versiyonun yüzde 80 daha ucuz olduğunu belirtiyor fakat bu sürüm diğeri kadar geniş bir bilgi yelpazesine sahip değil. 

Peki şirketin ön izleme veya bir ön sürüm olduğunu belirttiği o1, öncüllerinden farklı olarak neyi yapabiliyor, neyi yapamıyor ve insanlığın kendi bilişsel seviyesini geçen yapay zeka inşa etme çabasında nasıl bir adıma işaret ediyor?

1) Gerçekten düşünebiliyor mu?

Teknoloji sektöründeki en temel tartışmalardan biri, yapay zeka araçlarının becerilerini "düşünme" veya "muhakeme" gibi ifadelerle tanımlama etrafında dönüyor. 

Geniş dil modellerinin, devasa büyüklükte bilgi kümeleriyle eğitildiği ve sorgulara verdikleri cevaplarda bu veriler üzerinden olasılık temelli tahmin yürüttükleri göz önüne alınırsa, bazı uzmanların "düşünme" ifadesine itirazlarında haklılık payı var. 

Öte yandan bu araçlar insan beyni gibi akıl yürütme becerisine gittikçe daha fazla yaklaşıyor. 

OpenAI, o1 serisinin sorulara cevap vermeden önce daha uzun süre düşündüğünü ve vereceği yanıtların doğruluğunu kontrol ettiğini ifade ediyor.

Sisteme girilen soru karşısında "Düşünüyorum" gibi yanıtlar vermesi, gerçekten o sırada düşündüğü izlenimi yaratsa da o1'in insanlar gibi akıl yürüttüğünü söylemek mümkün değil. 

OpenAI'ın araştırma ekibinin lideri Jerry Tworek, yapay zeka modelinin düşünme biçimini insanlarınkiyle bir tutmadıklarını söylüyor. 

Arayüz ise yeni modelin problemleri çözerken daha fazla zaman harcadığını ve daha derine indiğini gösterme amacıyla bu şekilde tasarlanmış.

o1'i önceki OpenAI uygulamalarından ayıran temel özelliğiyse eğitilme biçiminde yatıyor. 

Eğitim bilimci ve öğretmenlerin aşina olabileceği pekiştirmeli öğrenme denen bu yöntem, doğru yanıtlar karşısında ödül, yanlış cevaplar karşısında da ceza verilmesi ilkesine dayanıyor.

Bu sayede deneme yanılmayla ilerleyen yapay zeka aracının, doğru yanıtlara ulaşma becerisi gelişiyor. Sorguları işlerken, insanların sorunları adım adım inceleyerek çözmesine benzer bir "düşünce zinciri" kullanıyor.

OpenAI, aracı "düşünmeye" iten bu yöntemin, doğruluğunu artırdığını ifade ediyor. 

2) Hangi alanlarda kullanılacak?

Karmaşık muhakeme görevlerinde kayda değer bir ilerlemeye ve yeni bir yapay zeka yeteneği seviyesine işaret ediyor. Bu nedenle sayacı tekrar 1'e sıfırlıyor ve bu seriye OpenAI o1 adını veriyoruz.

OpenAI'ın bu ifadelerle tanıttığı o1'in, dil becerilerinden ziyade bilimsel çalışmalar, veri işleme ve kodlamada daha iyi bir performans sergilemesi bekleniyor. Ayrıca o1-mini, daha küçük bir sürüm olmasına karşın özellikle kod üretmesi amacıyla geliştirildi. 

Yeni model kodlama ve matematikte sonuca ulaşma sürecini detaylandırdığı için bu alanlarda öğretmenlik yapma becerisinin önceki versiyonlardan daha iyi olması bekleniyor. 

Şirketin baş araştırma görevlisi Bob McGrew, yeni modelin ileri seviye matematik sorularında kendisinden daha iyi olduğunu belirterek kendisinin üniversitede matematik okuduğunu ekliyor.

OpenAI yeni modelin ayrıca bilim insanlarının hücre dizileme çalışmalarına ve fizikçilerin karmaşık matematiksel formüller üretmesine katkı sağlayacağını ifade ediyor. 

Ayrıca yapılan testlerde fizik, kimya ve biyolojinin bazı alanlarında doktora öğrencileriyle yarıştığı kaydedildi.

Şirketin baş bilim insanı Dr. Jakub Pachocki ve OpenAI teknik çalışanı Szymon Sido, New York Times'a yaptıkları sunumda, sohbet botunun çengel bulmacadan çok daha karmaşık akrostiş bulmacasını çözdüğü görüldü.

Yapay zeka aracı aynı zamanda doktora düzeyinde bir kimya sorusunu yanıtladı ve bir hastanın semptomları ve geçmişi hakkında ayrıntılı bir rapora dayanarak hastalığı teşhis etti.

3) GPT-4o'dan daha mı iyi?

Daha önceki modeller internetteki bilgilerle eğitildiği ve internette epey yanlış bilgi olduğu için hata yapma ihtimalleri artıyor. o1'in eğitilme biçimiyse bu hataları çok daha düşük seviyeye indirmesini sağlıyor. 

Yeni modelin; ses, görüntü ve yazıyla iletişim kuran GPT-4o'dan çok daha iyi performans gösterdiği alanlar olsa da bazı konularda gerisinde kalıyor. 

İki aracı da lise seviyesindeki Uluslararası Matematik Olimpiyatı'na sokan OpenAI, o1'in soruların yüzde 83'ünü, GPT-4o'nun ise sadece yüzde 13'ünü doğru çözdüğünü ifade ediyor. 

Thomson Reuters'tan yeni modeli test eden Pablo Arredondo, TechCrunch'a yaptığı açıklamada yasal belgeleri analiz etme ve hukuk fakültesine giriş sınavında da daha başarılı olduğunu söylüyor.

Strawberry takma adına sahip o1'in GPT-4o'yu geride bıraktığı bir diğer alan ise "strawberry" (çilek) kelimesinde kaç tane "r" harfi olduğunu bulmak.

Bu soruya "iki" yanıtını veren ChatGPT'nin önceki sürümleri internette alay konusu olmuştu. 

İlk başta çok zor bir görev gibi görünmese de yapay zeka araçları kelimeleri harf harf değil, jetonlar şeklinde işlediği için bu tip basit işlerde zorlanabiliyorlar. 

Ancak o1, daha detaylı düşünmesi ve kendisini kontrol etmesinden dolayı bu soruya doğru yanıtı vermeyi başardı. 

Öte yandan yeni model, internette arama yapma, metin ve görsel işleme gibi özelliklere henüz sahip değil. Ayrıca gerçek dünya hakkında GPT-4o kadar bilgisi de yok. 

Pennsylvania Üniversitesi Wharton İşletme Okulu'nda yapay zeka üzerine çalışan Ethan Mollick "Açıkçası o1-preview her şeyde daha iyi değil. Örneğin GPT-4o'dan daha iyi bir yazar değil" diyerek ekliyor: 

Ancak planlama gerektiren görevlerde ciddi değişiklikler sözkonusu.

OpenAI, yeni modelinde halüsinasyon sorununu da çözmeyi henüz başaramadı. Yapay zeka sohbet botlarının bazı bilgileri "uydurmasını" ifade eden halüsinasyon, bu araçların temel sorunu olmaya devam ediyor.

Modeli test eden Mollick, zorlu bir bulmacayı çözdüğünü ancak ipuçlarından birini uydurduğunu söylüyor. 

Yine de Tworek, "Bu modelin daha az halüsinasyon gördüğünü fark ettik" diyerek ekliyor: 

Ancak sorun hâlâ devam ediyor. Halüsinasyonları çözdüğümüzü söyleyemeyiz.

Son modelin bir diğer eksikliği de sorgulara yavaş cevap vermesi. Diğer sürümler neredeyse anında yanıtı sunarken, muhtemelen düşünme süresinden dolayı o1'in cevap vermesi çok daha uzun zaman alıyor.

Örneğin Mollick, bulmacayı çözmesinin 108 saniye sürdüğünü ifade ediyor.

OpenAI modelin ön izleme versiyonu olduğunu belirtirken, uzmanlar o1'in sonraki versiyonlarının hızlanmasını umuyor. 

4) İnsanlığa tehdit oluşturabilir mi?

Bazı yapay zeka araçları eğitimleri sırasında farklı kelimelerin beraber kullanılma sıklıklarını analiz ederek sözcüklerin birbirine yakınlığını tahmin ediyor. Örneğin "kedi" ve "köpek" kelimeleri birlikte daha sık kullanıldığı için yakın anlamlara sahip olmaları gerektiği sonucuna varıyor.

Bu modellerin "yapay zeka" ve "tehdit" ifadeleri arasında da böyle bir ilişki kurmuş olması muhtemel. 

Her yeni modelin piyasa sürülmesiyle akla gelen ilk sorulardan biri insanlığa varoluşsal bir tehdit yaratıp yaratmayacağı.

Sektörün önde gelen bazı isimleri bu tehlikeye karşı uyarırken bazı uzmanlar yapay zeka araçlarının nasıl kullanıldığının daha önemli olduğunu vurguluyor.

OpenAI'ın son sürümüyle bu araçların insan gibi düşünme becerisine bir adım daha yaklaşması da endişeleri artırabilir.

Ancak bu yazıdan da anlaşılabileceği üzere, o1'in becerileri henüz korkutucu bir düzeyin yakınından bile geçmiyor. 

Ars Technica'nın ifade ettiği gibi bir bulmacadaki 8 ipucunu çözmesi 108 saniye süren ve bir cevapta halüsinasyon gören bir yapay zeka modelinin potansiyel tehlike olduğunu söylemek abartıya kaçar. 

Öte yandan OpenAI'ın yanı sıra Meta ve Google gibi şirketlerin de çabaları ve son yıllardaki hızlı gelişmeler göz önüne alınırsa, insan seviyesine ulaşan yapay zeka araçları çok uzak olmayabilir.

Independent Türkçe, TechCrunch, Verge, Ars Technica, New York Times, OpenAI



Yapay zeka destekli akıllı saat bayılmayı önceden tahmin ediyor

Araştırmacılar, Samsung Galaxy Watch 6 akıllı saatinin bayılma durumları için erken uyarı sistemi görevi görebileceğini belirtiyor (Samsung)
Araştırmacılar, Samsung Galaxy Watch 6 akıllı saatinin bayılma durumları için erken uyarı sistemi görevi görebileceğini belirtiyor (Samsung)
TT

Yapay zeka destekli akıllı saat bayılmayı önceden tahmin ediyor

Araştırmacılar, Samsung Galaxy Watch 6 akıllı saatinin bayılma durumları için erken uyarı sistemi görevi görebileceğini belirtiyor (Samsung)
Araştırmacılar, Samsung Galaxy Watch 6 akıllı saatinin bayılma durumları için erken uyarı sistemi görevi görebileceğini belirtiyor (Samsung)

Araştırmacılar, akıllı saatlerinden gelen verileri kullanarak kişinin bayılmak üzere olup olmadığını tahmin edebilen dünyanın ilk sistemini geliştirdi.

Chung-Ang Üniversitesi Hastanesi'nde 132 hastanın katıldığı klinik çalışmada, Samsung Galaxy Watch'la kullanıcının kalp atış hızından gelen biyosinyallerden yararlanan gerçek zamanlı bir uyarı sistemi geliştirildi.

Sistem, bilimsel olarak vazovagal senkop diye bilinen bayılma nöbetlerini, yüzde 80'den fazla doğrulukla 5 dakikaya kadar önceden tahmin edebildi.

Hastanenin Kardiyoloji Bölümü'nden araştırmayı yöneten Profesör Junhwan Cho, "Senkop hastalarının düşmelerden kaynaklanan travmalar yaşaması yaygın bir durum ve ekstrem vakalarda bazıları kırık veya beyin kanaması gibi ciddi şekilde yaralanıyor" dedi.

Bu teknolojinin sağlayacağı erken uyarı, hastalara güvenli bir pozisyona geçmeleri veya yardım çağırmaları için önceden zaman kazandırabilir ve bu da ikincil yaralanmaların görülme sıklığını önemli ölçüde azaltabilir.

sdvfrtbhn
Samsung ve Kore'deki Chung-Ang Üniversitesi Gwangmyeong Hastanesi'nin ortak klinik çalışmasında, Galaxy Watch 6'dan elde edilen verilerle kişinin bayılıp bayılmayacağını tahmin edilebildi (Samsung)

Araştırmacılar, hastalardan kalp atış hızı değişkenliği verilerini toplamak için Galaxy Watch 6'daki fotopletismografi (PPG) sensörünü kullandı.

Daha sonra bayılma nöbetinin meydana gelmek üzere olup olmadığını belirlemek için verileri analiz etmek adına yapay zeka algoritması kullanıldı.

Bu, ticari bir akıllı saatin bayılmaya yönelik erken tahmin sistemini başarıyla sunduğu ilk örnek.

Samsung'un sağlık alanındaki araştırma ve geliştirme çalışmalarını yöneten Jongmin Choi, "Bu çalışma, giyilebilir teknolojinin sağlık hizmetlerini 'hastalık sonrası bakım'dan 'önleyici bakım' modeline nasıl dönüştürebileceğinin bir örneği" dedi.

Kullanıcılarımızın daha sağlıklı günlük yaşamlar sürmelerini sağlayan teknolojik yeniliklere öncülük etmeye kararlıyız.

Teknoloji devi, sağlık izleme yeteneklerini akıllı saatlerine ve diğer giyilebilir teknoloji cihazlarına entegre etmeyi planlıyor.

Araştırma bulguları, European Heart Journal-Digital Health adlı akademik derginin son sayısında "Prediction of vasovagal syncope using artificial intelligence-enabled smartwatch photoplethysmography-derived heart rate variability" (Yapay zeka destekli akıllı saat fotopletismografisiyle elde edilen kalp atış hızı değişkenliği kullanılarak vazovagal senkopun tahmin edilmesi) başlıklı çalışmada yayımlandı.

Independent Türkçe


ChatGPT'nin tuhaf takıntısının nedeni ortaya çıktı

Fotoğraf: Unsplash
Fotoğraf: Unsplash
TT

ChatGPT'nin tuhaf takıntısının nedeni ortaya çıktı

Fotoğraf: Unsplash
Fotoğraf: Unsplash

OpenAI, yapay zeka sohbet botu ChatGPT'nin mitolojik yaratıklara takıntılı hale gelmesine neden olan "goblin gizemini" çözdü.

ChatGPT'de alakasız sorulara verilen yanıtlarda bile "goblin" kelimesinden bahsedilme sıklığı son 6 ayda hızla arttı. Bu durum nedeniyle bir soruşturma başlatan OpenAI araştırmacıları, hatanın geçen kasımda yeni ChatGPT modelinin piyasaya sürülmesinin ardından "sinsice sızdığını" saptadı.

Öncüllerine kıyasla "daha akıllı ve daha konuşkan" olacak şekilde tasarlanan yeni model, "Meraklı", "İçten" ve "Sıradışı" gibi çeşitli kişilik ayarları içeriyordu.

Bu modelin yayımlanmasından kısa süre sonra ChatGPT kullanıcıları ve araştırmacılar; goblinler, gremlinler ve diğer fantastik yaratıklardan tekrar tekrar bahsedildiği bir örüntü fark etmeye başladı.

OpenAI konuyla ilgili blog yazısında, "GPT-5.1'den itibaren modellerimiz tuhaf bir alışkanlık geliştirmeye başladı: Metaforlarında giderek daha fazla goblin, gremlin ve diğer yaratıklardan bahsediyorlardı" diye belirtiyor.

Yaratıkların yer aldığı metaforlara bilmeden özellikle yüksek ödüller verdik. Goblinler de buradan yayıldı.

Şirketin güvenlik araştırmacıları GPT-5.1'in yayımlanmasının ardından, modelin eğlenceli metaforlar kullanmaya teşvik edilmesi sonucu "goblin" kelimesinin kullanımında yüzde 175'lik artış olduğunu bildirdi.

Eğitim yöntemi sonraki modeller için düzeltilmedi ve martta GPT-5.4 piyasaya sürüldüğünde "goblin" kullanımı, Meraklı kişilik tipinde neredeyse yüzde 4000 artarken diğer modellerde de aynı oranda artış görüldü.

OpenAI, "Ödüller yalnızca Meraklı kişilik ayarında uygulandı ancak pekiştirmeli öğrenme, öğrenilen davranışların onları üreten koşulla sınırlı kalmasını garanti etmez" ifadelerini kullanıyor.

Bir üslup alışkanlığı ödüllendirildiğinde daha sonraki eğitimler bunu başka yerlere yayabilir veya pekiştirebilir; özellikle de bu çıktılar denetimli ince ayar veya tercih verilerinde yeniden kullanılıyorsa.

Bu örnekteki aksaklık nispeten zararsızdı ancak önde gelen yapay zeka modelleri ve bunların eğitilme ve geliştirilme biçimindeki daha geniş bir kusuru gösteriyor.

Pekiştirmeli öğrenme ve ödül sinyallerinin kullanımı, yapay zeka modellerinin beklenmedik ve istenmeyen biçimlerde davranış değiştirmesine yol açabilir.

OpenAI, araştırma ve güvenlik ekibinin hatalı kalıpları araştırmak için yeni yollar geliştirdiğini ve gelecekte model davranışını daha fazla denetleyeceğini belirtiyor.

Independent Türkçe


SpaceX'e toplu dava: Evlerimiz zarar gördü

Güney Teksas'taki bazı sakinler, roket fırlatmalarından kaynaklanan ses patlamalarının evlerine zarar verdiğini iddia ederek Elon Musk'ın SpaceX şirketine dava açtı (AFP)
Güney Teksas'taki bazı sakinler, roket fırlatmalarından kaynaklanan ses patlamalarının evlerine zarar verdiğini iddia ederek Elon Musk'ın SpaceX şirketine dava açtı (AFP)
TT

SpaceX'e toplu dava: Evlerimiz zarar gördü

Güney Teksas'taki bazı sakinler, roket fırlatmalarından kaynaklanan ses patlamalarının evlerine zarar verdiğini iddia ederek Elon Musk'ın SpaceX şirketine dava açtı (AFP)
Güney Teksas'taki bazı sakinler, roket fırlatmalarından kaynaklanan ses patlamalarının evlerine zarar verdiğini iddia ederek Elon Musk'ın SpaceX şirketine dava açtı (AFP)

ABD'nin Teksas eyaletinde onlarca ev sahibi, roket testlerinden kaynaklanan ses patlamalarının evlerine zarar verdiğini iddia ederek Elon Musk'ın SpaceX şirketine dava açtı.

Dava, Güney Teksas'ta yaşayan 80 kişi tarafından geçen hafta federal mahkemeye sunuldu. Texas Tribune'a göre davacılar, SpaceX'i Nisan 2023'le Ekim 2025 arasında gerçekleştirilen 11 roket testinde meydana gelen ses patlamaları nedeniyle ağır ihmal ve izinsiz girişle suçladı.

Dava dilekçesine göre SpaceX testlerinde roketler hem fırlatılıp hem geri döndüğü için evler zaman zaman uzun süre hasar verici düzeyde gürültüye maruz kaldı.

Ses patlaması, ses hızını aşan bir nesne tarafından oluşturulan bir dalgadır. ABD Hava Kuvvetleri'ne göre bazı güçlü ses patlamaları cam kırılması gibi hasarlara neden olabilir.

SpaceX, dava hakkında Tribune'a yanıt vermedi. The Independent da SpaceX'le iletişime geçti.

Sakinler, 2023'teki bir Starship roket fırlatması sırasında, 33 motorlu iticinin yarattığı kuvvetin fırlatma rampasını tahrip ettiğini ve enkazın yaklaşık 1,2 kilometre uzağa fırladığını söylüyor.

Tribune'a göre dava dilekçesinde evlerdeki somut hasarların ayrıntılarına yer verilmedi. Ancak dilekçede ses patlamalarının duvarlara, pencerelere ve çatılara zarar verebileceği belirtildi.

Dilekçede, belirtilmeyen bir miktarda tazminat talep ediliyor.

Tribune'a göre ABD Federal Havacılık İdaresi, 2025'te SpaceX'e Güney Teksas'tan yılda 25'e kadar roket fırlatma yetkisi vermişti. Bu, bir önceki yıla göre 5 kat daha fazlaydı.

SpaceX ayrıca son yıllarda Güney Teksas bölgesinde devasa bir büyüme kaydetti. Şirket çalışanları Mayıs 2025'te Teksas'ta Starbase şehrini kurdu.

Tribune'un belirttiğine göre roket fırlatmaları Güney Teksas'taki fırlatma rampasının yakınındaki sahilin yaklaşık 13 kilometrelik şeridini kapatmış durumda. Bu sorun, şirketin bölgeyi ne sıklıkla kapatabileceği konusunda ayrı bir davaya yol açmıştı.

SpaceX 2002'de kuruldu ve Musk şu anda şirketin CEO'su olarak görev yapıyor. Yakın zamanda ABD Menkul Kıymetler ve Borsa Komisyonu'na (SEC) yapılan bir başvuru, Musk'ın kendisini şirketten görevden alabilme yetkisine sahip tek kişi olduğu ortaya çıkmıştı.

SEC başvurusu, SpaceX'in şirket hisselerini halka arz etmeye hazırlandığı bir dönemde geldi; Wall Street Journal'a göre bu süreç en erken bu yaz başlayabilir.

Independent Türkçe