OpenAI, yapay zeka sohbet botu ChatGPT'nin mitolojik yaratıklara takıntılı hale gelmesine neden olan "goblin gizemini" çözdü.
ChatGPT'de alakasız sorulara verilen yanıtlarda bile "goblin" kelimesinden bahsedilme sıklığı son 6 ayda hızla arttı. Bu durum nedeniyle bir soruşturma başlatan OpenAI araştırmacıları, hatanın geçen kasımda yeni ChatGPT modelinin piyasaya sürülmesinin ardından "sinsice sızdığını" saptadı.
Öncüllerine kıyasla "daha akıllı ve daha konuşkan" olacak şekilde tasarlanan yeni model, "Meraklı", "İçten" ve "Sıradışı" gibi çeşitli kişilik ayarları içeriyordu.
Bu modelin yayımlanmasından kısa süre sonra ChatGPT kullanıcıları ve araştırmacılar; goblinler, gremlinler ve diğer fantastik yaratıklardan tekrar tekrar bahsedildiği bir örüntü fark etmeye başladı.
OpenAI konuyla ilgili blog yazısında, "GPT-5.1'den itibaren modellerimiz tuhaf bir alışkanlık geliştirmeye başladı: Metaforlarında giderek daha fazla goblin, gremlin ve diğer yaratıklardan bahsediyorlardı" diye belirtiyor.
Yaratıkların yer aldığı metaforlara bilmeden özellikle yüksek ödüller verdik. Goblinler de buradan yayıldı.
Şirketin güvenlik araştırmacıları GPT-5.1'in yayımlanmasının ardından, modelin eğlenceli metaforlar kullanmaya teşvik edilmesi sonucu "goblin" kelimesinin kullanımında yüzde 175'lik artış olduğunu bildirdi.
Eğitim yöntemi sonraki modeller için düzeltilmedi ve martta GPT-5.4 piyasaya sürüldüğünde "goblin" kullanımı, Meraklı kişilik tipinde neredeyse yüzde 4000 artarken diğer modellerde de aynı oranda artış görüldü.
OpenAI, "Ödüller yalnızca Meraklı kişilik ayarında uygulandı ancak pekiştirmeli öğrenme, öğrenilen davranışların onları üreten koşulla sınırlı kalmasını garanti etmez" ifadelerini kullanıyor.
Bir üslup alışkanlığı ödüllendirildiğinde daha sonraki eğitimler bunu başka yerlere yayabilir veya pekiştirebilir; özellikle de bu çıktılar denetimli ince ayar veya tercih verilerinde yeniden kullanılıyorsa.
Bu örnekteki aksaklık nispeten zararsızdı ancak önde gelen yapay zeka modelleri ve bunların eğitilme ve geliştirilme biçimindeki daha geniş bir kusuru gösteriyor.
Pekiştirmeli öğrenme ve ödül sinyallerinin kullanımı, yapay zeka modellerinin beklenmedik ve istenmeyen biçimlerde davranış değiştirmesine yol açabilir.
OpenAI, araştırma ve güvenlik ekibinin hatalı kalıpları araştırmak için yeni yollar geliştirdiğini ve gelecekte model davranışını daha fazla denetleyeceğini belirtiyor.
Independent Türkçe