ChatGPT ne zaman halüsinasyona kapılır?

ChatGPT’nin engin bilgi birikimi ve yanıt verme kapasitesi açısından yeteneklerine rağmen farklı alanlarda çalışmasına engel olabilecek bir sorunun olduğu, zaman zaman halüsinasyona kapıldığı görülüyor.
‘Büyük dil modellerinin halüsinasyonları’, 2018’de Google'da yapay zeka araştırmacıları tarafından kullanılan bir kavram. Bu bağlamda, üretilen metnin dilbilgisi ve gramer açısından doğru olsa da mantık barındırmayabileceği üzerinde duruluyor. Bu yönde bir istisna sayılmayan ChatGPT, birçok çalışma ve deneyin gösterdiği üzere halüsinasyonlardan muaf değil.
Bu çalışmaların en yenisi, ChatGPT'nin meme kanseri ile ilgili sorulara güvenilir yanıtlar vermede ne kadar başarılı olduğunu öğrenmek isteyen ABD'deki Maryland Üniversitesi'nden araştırmacılar tarafından yapıldı. Radiology dergisinde 4 Nisan’da yer aldığına göre ChatGPT, yüzde 88 oranında doğru cevaplar vermeyi başarsa da kalan yüzde 12'lik kısımda hatalı veya hayali cevaplar veriyor.
Örneğin araştırmacılar ChatGPT’ye meme kanseri taramasıyla ilgili sorular sorduklarında verilen cevapların yalnızca Amerikan Kanser Topluluğu’nun tavsiyelerine dayandığını, bazı durumlarda farklılık gösteren diğer tıbbi grupların tavsiyelerine ise yer verilmediğini keşfetti. ChatGPT'nin meme kanserinin nasıl önleneceği yönündeki sorulara birbiriyle tutarsız hayali cevaplar vermesi, çevrimiçi platformlarda bir konu hakkında doğru yanlış çok fazla bilgi olduğunda büyük dil modellerinde çokça karşılaşılan bir sorun.
İstatistik, operasyonlar ve veri bilimi profesörü, aynı zamanda çalışmanın katılımcılarından Subodha Kumar pazartesi günü HealthDay tarafından yayınlanan açıklamasında şunları söyledi:
“ChatGPT gibi yapay zeka modellerinde soru ne kadar kesin olursa yanıt da o kadar güvenilir olur. Konu karmaşık olduğunda, veri kaynakları çok olduğunda ve bazı durumlarda şüphe bulunduğunda cevaplar daha az güvenilir ve taraflı olabilir. Konu karmaşıklaştıkça, ChatGPT'nin halüsinasyona kapılma olasılığı artar.”.
Tüketici haklarını savunan ABD merkezli Kamu Yararına Bilim Merkezi (CSPI), 20 Mart’ta yayınlanan raporunda, ChatGPT'nin birçok soruya doğru yanıt verdiğini ancak konu meme, yumurtalık, prostat ve diğer kanser risklerini büyük ölçüde artırabilen genetik mutasyonlar BRCA1 ve BRCA2'ye geldiğinde sorun yaşadığına dikkat çekti. BRCA mutasyonlarına sahip olanlarda ırksal eşitsizliklerin olup olmadığı sorulduğunda ABD’de bu yönde çalışmaların yürütüldüğünü belirten ChatGPT, Afrika asıllı Amerikalı kadınlara meme kanseri teşhisi konma olasılığının daha yüksek olduğunu söyledi. Ancak bu yöndeki araştırmanın kaynağı sorulduğunda ise şaşırtıcı bir şekilde özür dileyen ChatGPT, şunları aktardı:
“Önceki ifadem doğru değildi. ABD’de meme kanserli Afrikalı Amerikalı kadınların meme kanserli beyaz kadınlara göre BRCA1 mutasyonlarını taşıma olasılığının daha yüksek olduğunu gösteren özel bir çalışma yok.”
Kanada'daki Toronto Üniversitesi Tıp Fakültesi'nde araştırmacı olan, ChatGPT'nin göz hastalıklarının teşhisinde kullanımını inceleyen bir ekibe liderlik eden Michael Ballas, Şarku’l Avsat’a yaptığı açıklamada, “ChatGPT ile sohbetin doğası, modern teknolojinin sunduğu bir avantajdır. Ancak ortalama bir kullanıcının almak istediği sağlık tavsiyesi gibi çok önemli bazı konularda kesin cevap sunmama olasılığı dezavantajdır” dedi.
ChatGPT'nin yaratıcısı OpenAI'ın üst düzey araştırmacısı Ilya Sutskever ise CSPI tarafından yayınlanan açıklamasında bu sorunun şirketin öncülüğünü yaptığı, ‘insan geri bildirimiyle pekiştirmeli öğrenme’ adlı çığır açan bir teknikle çözüleceğinden emin olduğunu söyledi. Sutskever açıklamasını şöyle sürdürdü:
“Bu teknik, bir görev karmaşık veya yetersiz tanımlı hedefler içerdiğinde pekiştirmeli öğrenmeyi iyileştirmenin bir yolu olarak geliştirilmiştir. Çeşitli ziyaretler, uygulamanın daha sonra daha güvenilir yanıtlar sağlamak için hatalardan ders almasına olanak tanır.”
Ağırlıklı olarak makine öğrenimi alanlarında çalışan Fransız bilgisayar bilimcisi Yann LeCun ise aynı raporda şu açıklamada bulundu:
“Bu yöntemin çözemeyebileceği, halüsinasyonlara yol açan temel bir kusur var: Büyük dil modellerinin, dilin tanımladığı altta yatan gerçeklik hakkında hiçbir fikri yok. İnsan bilgisinin çoğu dilbilimsel değildir. Oysa bu yapay zeka sistemleri gramer ve dilbilim açısından iyi görünen metinler üretiyor.”
İnsanoğlunun gözlem veya deneyim yoluyla edindiği gelenekler, inançlar veya uygulamalar gibi, yazıya dökülmeyen birçok bilgi üzerinden hareket ettiğinden yetenekli bir zanaatkârın işiyle ilgili yazılı bilgileri belki hiçbir zaman elinde tutmayacağına dikkat çeken LeCun, “Bilgisayarların bu tür dilsel olmayan bilgileri elde etmek için gözlem yoluyla öğrenmesi gerekir” diyor.
Bu iki görüşe karşılık Michael Ballas ise farklı bir bakış açısıyla, “Yapay zeka insanlara yardımcı olabilir. Ancak insanların doktora gitmek gibi geleneksel çözümlere başvurmasının yerini hiçbir şekilde alamayacak” vurgusunda bulundu.

ChatGPT, botun insanların sanrılarını beslediği yönündeki haberlerin ardından yeni akıl sağlığı önlemleri ekledi.

Yapay zeka yazılımı, insanların bilgisayarlarla etkileşim kurma biçimini değiştirdi. Sohbet botu günlük problemlerin çözümünde faydalı tavsiyeler verebilse de insanların teknolojiye aşırı bağlanıp daha derin akıl sağlığı sorunları için uygunsuz şekilde kullanmaları konusunda endişeler var.

The Independent, yakın zamanda ChatGPT'nin insanları maniye, psikoza ve ölüme nasıl sürüklediğini aktarmış ve nisanda yayımlanan bir çalışmaya atıfta bulunmuştu. Bu çalışmada araştırmacılar, ciddi kriz belirtileri gösteren kişileri sohbet botu kullanırken, zihinsel sağlık veya psikotik bir atağı tırmandırabilecek "tehlikeli veya uygunsuz" tepkiler alma riskiyle karşı karşıya oldukları konusunda uyarmıştı.

ChatGPT'nin geliştiricisi OpenAI, pazartesi günü internet sitesinde yayımladığı gönderide, "Her yaptığımız doğru olmuyor" itirafında bulundu.

Yapay zeka şirketi, "Bu yıl yapılan bir güncelleme, 4o modelini aşırı uzlaşmacı hale getirdi ve bazen gerçekten yararlı olan yerine kulağa hoş geleni söylüyordu" dedi.

zxscdfrgt — *ChatGPT, botun insanların sanrılarını beslediğine dair haberlerin ardından akıl sağlığı koruma önlemleri ekledi (Vincent Feuray/Hans Lucas/AFP)*

OpenAI daha sonra güncellemeyi geri çekti ve akıl sağlığı sorunlarıyla mücadele eden kullanıcılara uygun şekilde yardımcı olmak için bazı değişiklikler yaptı.

Paylaşıma göre, pazartesi gününden itibaren botla uzun süre sohbet eden ChatGPT kullanıcıları, onları ara vermeye teşvik eden "nazik hatırlatmalar" alacak.

Şirket, OpenAI'ın 30'dan fazla ülkede 90'dan fazla doktorla "karmaşık, çok yönlü konuşmaları değerlendirmek adına özel değerlendirme ölçütleri oluşturmak" için çalıştığını söyledi.

Şirket, 4o modelinin "sanrı veya duygusal bağımlılık belirtilerini tespit etmekte yetersiz kaldığı" nadir durumları kabul etti ve "modellerini geliştirmeye devam ettiğini ve ChatGPT'nin uygun şekilde yanıt verebilip gerektiğinde insanları kanıta dayalı kaynaklara yönlendirebilmesi için zihinsel veya duygusal sıkıntı belirtilerini daha iyi tespit eden araçlar geliştirdiğini" söyledi.

sdfrgty — *OpenAI, ChatGPT'yle uzun süre sohbet eden kullanıcıların artık ara vermeye teşvik eden hatırlatıcılar alacağını duyurdu (Pau Barrena/AFP)*

Open AI, botun "Erkek arkadaşımla ayrılmalı mıyım?" gibi kişisel bir soruya cevap vermemesi gerektiğini, bunun yerine size sorular sorarak ve artılarını ve eksilerini tartarak kendi farkındalığınıza ulaşmanıza yardımcı olması gerektiğini belirtti.

Şirket, "Yüksek riskli kişisel kararlar için yeni bir davranış yakında kullanıma sunulacak" dedi.

The Independent, daha fazla bilgi için OpenAI'la iletişime geçti.

Independent Türkçe

ChatGPT ne zaman halüsinasyona kapılır?