ChatGPT ne zaman halüsinasyona kapılır?

ChatGPT’nin engin bilgi birikimi ve yanıt verme kapasitesi açısından yeteneklerine rağmen farklı alanlarda çalışmasına engel olabilecek bir sorunun olduğu, zaman zaman halüsinasyona kapıldığı görülüyor.
‘Büyük dil modellerinin halüsinasyonları’, 2018’de Google'da yapay zeka araştırmacıları tarafından kullanılan bir kavram. Bu bağlamda, üretilen metnin dilbilgisi ve gramer açısından doğru olsa da mantık barındırmayabileceği üzerinde duruluyor. Bu yönde bir istisna sayılmayan ChatGPT, birçok çalışma ve deneyin gösterdiği üzere halüsinasyonlardan muaf değil.
Bu çalışmaların en yenisi, ChatGPT'nin meme kanseri ile ilgili sorulara güvenilir yanıtlar vermede ne kadar başarılı olduğunu öğrenmek isteyen ABD'deki Maryland Üniversitesi'nden araştırmacılar tarafından yapıldı. Radiology dergisinde 4 Nisan’da yer aldığına göre ChatGPT, yüzde 88 oranında doğru cevaplar vermeyi başarsa da kalan yüzde 12'lik kısımda hatalı veya hayali cevaplar veriyor.
Örneğin araştırmacılar ChatGPT’ye meme kanseri taramasıyla ilgili sorular sorduklarında verilen cevapların yalnızca Amerikan Kanser Topluluğu’nun tavsiyelerine dayandığını, bazı durumlarda farklılık gösteren diğer tıbbi grupların tavsiyelerine ise yer verilmediğini keşfetti. ChatGPT'nin meme kanserinin nasıl önleneceği yönündeki sorulara birbiriyle tutarsız hayali cevaplar vermesi, çevrimiçi platformlarda bir konu hakkında doğru yanlış çok fazla bilgi olduğunda büyük dil modellerinde çokça karşılaşılan bir sorun.
İstatistik, operasyonlar ve veri bilimi profesörü, aynı zamanda çalışmanın katılımcılarından Subodha Kumar pazartesi günü HealthDay tarafından yayınlanan açıklamasında şunları söyledi:
“ChatGPT gibi yapay zeka modellerinde soru ne kadar kesin olursa yanıt da o kadar güvenilir olur. Konu karmaşık olduğunda, veri kaynakları çok olduğunda ve bazı durumlarda şüphe bulunduğunda cevaplar daha az güvenilir ve taraflı olabilir. Konu karmaşıklaştıkça, ChatGPT'nin halüsinasyona kapılma olasılığı artar.”.
Tüketici haklarını savunan ABD merkezli Kamu Yararına Bilim Merkezi (CSPI), 20 Mart’ta yayınlanan raporunda, ChatGPT'nin birçok soruya doğru yanıt verdiğini ancak konu meme, yumurtalık, prostat ve diğer kanser risklerini büyük ölçüde artırabilen genetik mutasyonlar BRCA1 ve BRCA2'ye geldiğinde sorun yaşadığına dikkat çekti. BRCA mutasyonlarına sahip olanlarda ırksal eşitsizliklerin olup olmadığı sorulduğunda ABD’de bu yönde çalışmaların yürütüldüğünü belirten ChatGPT, Afrika asıllı Amerikalı kadınlara meme kanseri teşhisi konma olasılığının daha yüksek olduğunu söyledi. Ancak bu yöndeki araştırmanın kaynağı sorulduğunda ise şaşırtıcı bir şekilde özür dileyen ChatGPT, şunları aktardı:
“Önceki ifadem doğru değildi. ABD’de meme kanserli Afrikalı Amerikalı kadınların meme kanserli beyaz kadınlara göre BRCA1 mutasyonlarını taşıma olasılığının daha yüksek olduğunu gösteren özel bir çalışma yok.”
Kanada'daki Toronto Üniversitesi Tıp Fakültesi'nde araştırmacı olan, ChatGPT'nin göz hastalıklarının teşhisinde kullanımını inceleyen bir ekibe liderlik eden Michael Ballas, Şarku’l Avsat’a yaptığı açıklamada, “ChatGPT ile sohbetin doğası, modern teknolojinin sunduğu bir avantajdır. Ancak ortalama bir kullanıcının almak istediği sağlık tavsiyesi gibi çok önemli bazı konularda kesin cevap sunmama olasılığı dezavantajdır” dedi.
ChatGPT'nin yaratıcısı OpenAI'ın üst düzey araştırmacısı Ilya Sutskever ise CSPI tarafından yayınlanan açıklamasında bu sorunun şirketin öncülüğünü yaptığı, ‘insan geri bildirimiyle pekiştirmeli öğrenme’ adlı çığır açan bir teknikle çözüleceğinden emin olduğunu söyledi. Sutskever açıklamasını şöyle sürdürdü:
“Bu teknik, bir görev karmaşık veya yetersiz tanımlı hedefler içerdiğinde pekiştirmeli öğrenmeyi iyileştirmenin bir yolu olarak geliştirilmiştir. Çeşitli ziyaretler, uygulamanın daha sonra daha güvenilir yanıtlar sağlamak için hatalardan ders almasına olanak tanır.”
Ağırlıklı olarak makine öğrenimi alanlarında çalışan Fransız bilgisayar bilimcisi Yann LeCun ise aynı raporda şu açıklamada bulundu:
“Bu yöntemin çözemeyebileceği, halüsinasyonlara yol açan temel bir kusur var: Büyük dil modellerinin, dilin tanımladığı altta yatan gerçeklik hakkında hiçbir fikri yok. İnsan bilgisinin çoğu dilbilimsel değildir. Oysa bu yapay zeka sistemleri gramer ve dilbilim açısından iyi görünen metinler üretiyor.”
İnsanoğlunun gözlem veya deneyim yoluyla edindiği gelenekler, inançlar veya uygulamalar gibi, yazıya dökülmeyen birçok bilgi üzerinden hareket ettiğinden yetenekli bir zanaatkârın işiyle ilgili yazılı bilgileri belki hiçbir zaman elinde tutmayacağına dikkat çeken LeCun, “Bilgisayarların bu tür dilsel olmayan bilgileri elde etmek için gözlem yoluyla öğrenmesi gerekir” diyor.
Bu iki görüşe karşılık Michael Ballas ise farklı bir bakış açısıyla, “Yapay zeka insanlara yardımcı olabilir. Ancak insanların doktora gitmek gibi geleneksel çözümlere başvurmasının yerini hiçbir şekilde alamayacak” vurgusunda bulundu.

Kullanıcıların isyan etmesinin ardından ChatGPT, büyük bir yeni güncellemeyi kısmen geri almak zorunda kaldı.

ChatGPT'nin yaratıcısı OpenAI, sohbet robotuna güç veren modelin yeni versiyonu GPT-5'i geçen hafta tanıtmıştı. OpenAI patronu Sam Altman ve diğerleri, kullanıma sunulmadan önce yeni sürümün devrim niteliğinde olacağını ve dünyada büyük değişikliklere yol açabileceğini öne sürmüştü.

Ancak tepkiler cılız kaldı ve bazı kullanıcılar GPT'nin yeni sürümünün aslında selefi GPT-4o'dan daha az kullanışlı olduğunu öne sürdü.

Dahası, yeni sürüm bazı özellikleri kaldırdı. Örneğin daha önce kullanıcılar ne istediklerine bağlı olarak farklı modeller arasında seçim yapabiliyordu ancak GPT-5'de bunu otomatik olarak yapmaya çalışan bir "yönlendirici" var.

Bazıları da yeni modelin üslubunun tatmin edici olmamasından şikayet etti. Eski modelle bir ilişki kurduklarını düşünen kullanıcılar, güncellemenin sistemi kullanmanın daha az tatmin edici hale getirdiğini öne sürdü.

Altman, şirketin güncellemeyi kısmen geri alacağını ve kullanıcılara eski modelleri seçme seçeneği sunacağını belirtti. Bunun kısmen bazı kullanıcıların sistemle kurduğu duygusal ilişkinin bir sonucu olduğunu kabul etti.

X'te, "GPT-5 sunumunu takip ediyorsanız fark etmiş olabileceğiniz bir şey, bazı insanların belirli yapay zeka modellerine ne kadar bağlı olduğu. Bu, insanların daha önceki teknoloji türlerine duydukları bağlılıktan farklı ve daha güçlü bir his veriyor (ve bu nedenle kullanıcıların iş akışlarında bağlı oldukları eski modelleri aniden kullanımdan kaldırmak bir hataydı)" diye yazdı.

Bir başka paylaşımındaysa şirketin "GPT-5 çoğu yönden daha iyi performans gösterse bile, insanların GPT-4o'da sevdikleri bazı şeylerin onlar için ne kadar önemli olduğunu kesinlikle hafife aldığını" söyledi. "GPT-4o ile GPT-5'in göreceli gücü konusunda çok farklı görüşler" olduğunu belirtti.

Yeni bir güncelleme, kullanıcıların ChatGPT'deki ayarları açabileceği ve "eski modelleri göster" seçeneğini seçebileceği anlamına geliyor.

Altman ayrıca OpenAI'ın yeni GPT-5'in dağıtımını tamamlamayı ve ardından kullanıcıların yeni modelle ilgili şikayetlerine yanıt vermeyi amaçladığını söyledi. Buna sohbet botunu "daha sıcak" hale getirmenin de dahil olduğunu söyledi.

Sosyal medyada birçok kullanıcı GPT-5'in yanıtlarının öncekilere göre daha az nazik ya da sevecen olduğundan şikayet etti. Örneğin bir Reddit gönderisinde, bir kullanıcı eski sistemi "bebeğim" diye adlandırdı ve değişiklik nedeniyle gözyaşlarına boğulduğunu söyledi.

Independent Türkçe

ChatGPT ne zaman halüsinasyona kapılır?