Microsoft’un raporunda İran'ın siber saldırılarına dikkat çekildi

Tahran manipüle etmek ve korkutmak için yapay zeka tekniklerini kullandı.

Microsoft yayınladığı raporda İran’ın siber saldırılarına yer verdi.
Microsoft yayınladığı raporda İran’ın siber saldırılarına yer verdi.
TT

Microsoft’un raporunda İran'ın siber saldırılarına dikkat çekildi

Microsoft yayınladığı raporda İran’ın siber saldırılarına yer verdi.
Microsoft yayınladığı raporda İran’ın siber saldırılarına yer verdi.

Microsoft'a göre İran, Gazze Şeridi'nde savaşın başladığı 7 Ekim 2023'ten bu yana İsrail'e yönelik siber operasyonlarına ve propaganda kampanyalarına hız verdi.

ABD merkezli Microsoft, Hamas Hareketi’nin 7 Ekim 2023'te gerçekleştirdiği saldırıların öncesi ve sonrasında İran'ın siber faaliyetlerine ilişkin ayrıntılı bir rapor yayınladı.

Raporda, İran hükümetiyle ittifak halinde olan bazı tarafların çok sayıda elektronik ve siber saldırı başlattığı belirtildi. Hamas'a yardım etmeyi ve İsrail'i, onun siyasi müttefiklerini ve ticari ortaklarını zayıflatmayı amaçlayan yapay zekâ tekniklerini ve nüfuz operasyonlarını kullandı.

Microsoft’un raporuna göre İran, Hamas'ı desteklemek amacıyla siber operasyonlarını ve çevrimiçi etki operasyonlarına hız verdi ve faaliyetlerinin yaklaşık yüzde 43'ünü İsrail'e karşı yürüttü.

Ancak rapora göre İran'ın 7 Ekim'den sonra gerçekleştirdiği operasyonların çoğu aceleci ve kaotikti; bu da İran ile Hamas arasında bir koordinasyon olmadığını gösteriyor.

Şarku’l Avsat’ın edindiği bilgilere göre raporda ayrıca İran'ın Lübnan'daki Hizbullah grubuyla iş birliğine de dikkat çekildi. İsrail ile Hamas arasındaki çatışmanın devam etmesi ve ABD başkanlık seçimlerinin yaklaşmasıyla birlikte İran'ın nüfuz operasyonlarının ve elektronik saldırıların önümüzdeki dönemde daha hedefe yönelik ve yıkıcı olacağı öngörülüyor.

Microsoft'un raporuna göre 2024 yılında İran'ın ABD'yi başkanlık seçimleri döneminde daha fazla hedef alması bekleniyor. İran'ın, İsrail hastanesine ve Pensilvanya'daki Amerikan su sistemine karşı yaptığı gibi hayati altyapıyı hedef almak gibi ‘ABD’nin kırmızı çizgilerini test edeceği’ vurgulanıyor.

Rapor, 2020 seçimlerinde olduğu gibi, ABD'li aşırılık yanlılarının kimlik hırsızlığı yaparak ve ABD hükümet yetkililerine karşı şiddeti teşvik ederek gerçekleştirdikleri olaylara dayanarak 2024'te ABD'deki başkanlık seçimleri sırasında yoğunlaşan daha büyük tehditler konusunda uyarıda bulunuldu.

Saldırıların üç aşaması

Raporda üç aşamada gerçekleştirilen operasyonlara ilişkin açıklamalara yer verildi:

İlk aşama etkileşimli olarak başlıyor ve İran Devrim Muhafızları'na bağlı ‘Tesnim’ ajansı gibi devlet medyası aracılığıyla yanıltıcı bilgilerin yayılmasını içeriyor. Örneğin, İsrail elektrik şirketinin arızalanmasıyla ilgili haberlerin yayınlandığı haberlerle ilişkilendirilmiş olan İran Devrim Muhafızları tarafından yönetilen bir grup (muhtemelen) siber saldırılar hakkında bilgiler içeren raporlara dayanır. Bu raporlar, İsrail'deki elektrik kesintilerine ilişkin eski raporlara ve İsrail şirketinin web sitesinde yer alan tarihsiz bir arıza ekran görüntüsüne dayanıyordu.

İkinci aşama, İran hükümetine bağlı çeşitli grupların ve kuruluşların İsrail'e karşı yanıltıcı bilgilerin yayılmasında iş birliği yapmasıyla karakterize edildi. Tahran'ın belirlediği koordinasyon ve hedeflere göre, bu, büyük bir iş birliğine ve dolayısıyla bu saldırıların uzmanlaşmasına ve büyük etkinliğine olanak sağladı.

Raporda, birden fazla İranlı grubun birden fazla koordineli siber faaliyet yoluyla aynı örgütü veya İsrail askeri üssünü hedef aldığı belirtildi. İran'ın kullanmayı tercih ettiği bir yöntem olan İsrail'e yönelik çevrimiçi nüfuz operasyonları hız kazandı ve bu operasyonlar arttı ve Ekim ayında on operasyon kaydedildi. Bu, 2022 yılının kasım ayında bir ayda gerçekleştirilen altı operasyon rekorunun neredeyse iki katına işaret ediyor.

Raporda, İran Devrim Muhafızları'na bağlı ‘Şehit Kaave’ grubunun 18 Ekim'de, İsrail içindeki güvenlik kameralarına karşı elektronik saldırılar düzenlemek için özel olarak tasarlanmış fidye yazılımlarını kullandığı belirtildi. ‘Cund Süleyman’ isimli bir siber karakter, İsrail'in Nevatim Hava Üssü'ndeki güvenlik kameralarını ve verilerini ele geçirdiklerini iddia etti. Ancak ‘Cund Süleyman’ tarafından sızdırılan güvenlik görüntülerinin, Tel Aviv'in kuzeyindeki Nevatim Caddesi'nde bulunan bir kasabada çekildiği ve aynı ismi taşıyan İsrail Hava Üssü'yle ilgisi olmadığı belirtildi.

Üçüncü aşama, geçtiğimiz kasım ayının sonlarında başladı ve İran'ın İsrail'e destek verdiğini düşündüğü ülkeleri hedef alarak coğrafi kapsamı genişletti. Bu aşama, İran destekli Husilerin uluslararası nakliyatı hedef alan saldırılarına başladığı döneme denk geldi. Bu saldırılar özellikle Bahreyn, Arnavutluk ve ABD'yi hedef aldı.

erbtn5y6mu7
İran'ın başlattığı nüfuz operasyonlar arasında rehinelerle ilgili olarak İsrail kamuoyunu etkilemek ve İsrail Başbakanı'na karşı öfkeyi artırmak var. (Microsoft raporu)

20 Kasım'da, ‘kukla’ hesaplarından Arnavutluk'a karşı yakın zamanda gerçekleşecek olan elektronik saldırılara dair uyarılar yapıldı. Daha sonra bu hesaplar, çeşitli Arnavut kuruluşları ve kurumlarına saldırılardan sorumlu olduklarını duyurdu.

21 Kasım'da ‘Tufan’ adı verilen bir siber kukla, İsrail ile ilişkilerini normalleştirmeye devam etmelerini engellemek için denizcilik hükümetini ve finans kurumlarını hedef aldı.

22 Kasım'da, İran Devrim Muhafızları'na bağlı bu gruplar, İsrail'in programlama kontrol ünitelerini hedef almaya başladılar (bu, üretim hatları ve robot cihazları gibi üretim kontrol işlemlerini gerçekleştirmek için geliştirilen endüstriyel bilgisayar cihazlarıdır) ve 25 Kasım'da Pensilvanya eyaletindeki su otoritesinin iletişimini kestiler.

Yanlış bilgi

Raporda hükümet medyasının Hamas saldırılarıyla ilgili yanıltıcı ayrıntılar yayınlamasına da değinildi. İran da İsrail'e yönelik siber saldırı operasyonlarını ve çabalarını artırdı. Saldırılar, savaşın ilk günlerinde bir tepki olarak başladı, ancak ekim ayının sonlarına doğru İran siber güvenlik güçlerinin İsrail'e yönelik saldırılarına odaklandığı belirtildi.

Microsoft’un raporunda, o dönemdeki siber saldırıların giderek daha yıkıcı hale geldiğini ve yanıltıcı bilgilerin yayılması kampanyalarının daha karmaşık hale geldiği belirtildi. Sosyal medya platformlarında sahte ve gerçek olmayan hesapların kullanıldığı ifade edildi.

Sayısal olarak bakıldığında, Microsoft'un gözlemlediği İran hükümet grupları, savaşın ilk haftasında dokuz saldırıdan bir sonraki haftada sadece bir hafta içinde on dört saldırıya çıkarak arttı.

2021'deki bir olaydan iki ayda bir düzenlenen etki operasyonları, sadece 2023 yılının Ekim ayında 11'e yükseldi. Ayrıca, Tahran'ın çevrimiçi eylemlerinde yüzde 42'lik bir artışın olduğu ve bir ay sonra yüzde 28'lik bir artışın daha kaydedildiği bildirildi.

İsrail’in ana hedef olmasına rağmen, Batı ve Arap ülkeleri de saldırılara maruz kaldı. Bunlar arasında, bir İran grubunun Bahreyn hükümetini ve finansal kurumları hedef alması da yer aldı. Son olarak, İran Devrim Muhafızları'na bağlı bir grup, Pensilvanya'daki ABD su yönetim merkezine siber saldırılar düzenledi.

İran'ın hedefleri

Raporda, İran'ın ana hedefinin, siber operasyonlarını kullanarak İsrail ve dünya genelinde kamuoyunu etkilemek olduğu belirtiliyor. Bu, ‘siyasi ve sosyal anlaşmazlıkları’ hedefleyerek manipülasyon veya korku yoluyla gerçekleştiriliyor.

Raporda, etki operasyonlarının sık sık çabalarını, Hamas'ın liderlik ettiği saldırı sırasında kaçırılan 240 rehineye veya İsrail Başbakanı Binyamin Netanyahu'nun görevden alınmasına yönlendirdiği kaydedildi. Bu, kafa karışıklığı ve güven kaybı yaratmak için yapılan bir girişimdi.

Microsoft’un raporu, ana hedeflerine de değinildi: Birincisi, iç siyasi ve sosyal farklılıkları daha da kötüleştiren kutuplaşma yoluyla istikrarsızlaştırma. Bu nedenle, 240 rehine kriziyle başa çıkma konusunda İsrail hükümetinin benimsediği yaklaşıma odaklanıldı. Kendilerini barış isteyen aktivist gruplar olarak tanıttılar, İsrail hükümetini ve İsrail Başbakanı'nı eleştirdiler ve onun görevden alınması çağrısında bulundular.

Microsoft raporuna göre ikinci hedef intikamdı. İran'ın saldırıları, İsrail'in ‘göze göz dişe diş’ prensibinden hareketle Gazze'deki elektrik, su ve yakıtı keseceği yönündeki tehditlerine yanıt olarak İsrail'in elektrik, su ve yakıt altyapısını hedef aldı.

Üçüncü hedef, İsrail vatandaşlarını korkutarak ve İsrail askerlerinin ailelerini tehdit ederek korku yaratmaktı. Bu amaçla, İsrail ordusunun askerlerini koruma yetkisinin olmadığını belirten ve İsrail Savunma Kuvvetleri'nin askerlerini teslim olmaya ikna etmeyi amaçlayan mesajlar gibi, X platformu üzerinden hesaplar aracılığıyla mesajlar yayınladılar.

Dördüncü hedef ise İsrail'i destekleyen tarafları hedef alarak ve İsrail'in Gazze Şeridi'ne yönelik saldırılarının yarattığı hasarı öne çıkararak İsrail'e verilen uluslararası desteği baltalamaktı.

Yapay zekâ saldırıları

Rapora göre İran'ın en büyük saldırısı, 2023 yılının Aralık ayı başlarında televizyon yayın hizmetlerini keserek, yerine İngiltere, Kanada ve BAE'deki İran nüfuz kampanyası kapsamında (yapay zeka tarafından üretilen bir haber spikeri) kullanılan bir video klip kullanılmasıydı. Microsoft, bu olaya özel bir vurgu yaparak, Tahran'daki hükümet grupları tarafından benzer bir şekilde yapılan ilk saldırı olduğunu ve operasyonlarında büyük ölçüde yapay zekâ teknolojilerine güvendiklerini belirtti.

Microsoft şirketinin yapay zeka izleme bölümü, İran'ın propaganda göstergelerini takip etti.

Microsoft raporu, İran devletine bağlı medyanın, ABD ile yakın müttefik olan İngiltere, Kanada, Avustralya ve Yeni Zelanda gibi İngilizce konuşulan ülkelerde büyük başarı elde ettiğini gözler önüne serdi. İran haber kaynaklarına olan ilgi ve trafiğin, genel internet trafiğiyle karşılaştırıldığında önemli ölçüde arttığını ifade etti. İsrail'in Gazze'ye yönelik saldırısı sırasında, ABD, İngiltere, Kanada, Avustralya ve Yeni Zelanda'dan İran kaynaklı internet sitelerine olan ziyaretlerin yüzde 42 arttığı kaydedildi. Bu durum, İran'ın Ortadoğu'daki çatışma hakkındaki raporlarıyla Batı halkına ulaşma yeteneğine işaret etti. Rapor, bu başarının özellikle savaşın ilk günlerinde daha güçlü olduğunu ve savaşın bir ayı aşkın bir süre geçtikten sonra bile, İran kaynaklarına erişimin savaş öncesi seviyelerinin yüzde 28 üzerinde kaldığını belirtti.

İran sızma operasyonları

Rapor, İranlı kurumların sadece düşmanlarını değil, aynı zamanda dostlarını da taklit ettiğini belirtiyor. İran'ın son operasyonları, İsrail ordusunu tehdit eden sahte mesajlar yayınlamak için Hamas'ın askeri kanadı olan Kassam Tugayı'nın adını ve logosunu kullandı. Ancak, İran'ın bunun için Hamas'tan onay alıp almadığı bilinmiyor.

İran, İsraillileri faaliyetlerine katılmaya çekmeyi başardı. ‘Savaşın Gözyaşları’ adlı son bir operasyonda, İranlı ajanlar İsraillileri, İsrail basınında yer alan haberlere dayanarak İsrail mahallelerinde yapay zeka ürünü görseller kullandı. ‘Savaşın Gözyaşları’ sloganlı pankartlar asmaya ve Binyamin Netanyahu'nun görevden alınmasını teşvik etmeye ikna etti.

E-posta kampanyaları

İran'ın, psikolojik etkileri artırmak için kitle mesajlaşma ve e-posta kampanyalarını artan bir şekilde kullandığı belirlendi. İnsanların telefonlarına veya gelen kutularına gelen mesajların, sosyal medyadaki sahte hesaplardan daha büyük bir etkiye sahip olduğu ortaya çıktı. Rapora göre İran, İran Devrim Muhafızları'na bağlı hem açık hem de gizli medya organlarını, siber operasyonların etkilerini büyütmek için kullanıyor. Eylül ayında, İranlı bir hacker grubu, İsrail demiryolu sistemine karşı elektronik saldırılar düzenlediğini iddia etti. İran Devrim Muhafızları'nın medyası da söz konusu iddiaları köpürterek yayılmasını sağladı.



Google tarih vererek uyardı: Tüm şifreler tehlikeye girecek

Kuantum bilgisayarlar, klasik bilgisayarların aksine 0 ve 1 (bit) yerine, aynı anda her ikisi olabilen kübit (kuantum bit) birimlerini kullanıyor (Reuters)
Kuantum bilgisayarlar, klasik bilgisayarların aksine 0 ve 1 (bit) yerine, aynı anda her ikisi olabilen kübit (kuantum bit) birimlerini kullanıyor (Reuters)
TT

Google tarih vererek uyardı: Tüm şifreler tehlikeye girecek

Kuantum bilgisayarlar, klasik bilgisayarların aksine 0 ve 1 (bit) yerine, aynı anda her ikisi olabilen kübit (kuantum bit) birimlerini kullanıyor (Reuters)
Kuantum bilgisayarlar, klasik bilgisayarların aksine 0 ve 1 (bit) yerine, aynı anda her ikisi olabilen kübit (kuantum bit) birimlerini kullanıyor (Reuters)

Google, kuantum bilgisayarların 2029'a kadar şifreli sistemleri ele geçirebileceği uyarısında bulundu.

Alphabet'in sahibi olduğu şirketin internet sitesindeki blog paylaşımında, kuantum bilgisayarların 2020'lerin sonuna kadar "mevcut şifreleme standartları için ciddi bir tehdit oluşturacağı" belirtildi.

Teknoloji devinin çarşamba günkü paylaşımında şu ifadelere yer verildi:

Bilgilerin gizli ve güvenli tutulması için kullanılan mevcut şifreleme sistemleri, önümüzdeki yıllarda büyük ölçekli bir kuantum bilgisayar tarafından kolayca kırılabilir. Kuantum bilgisayarlar mevcut şifreleme standartları, özellikle de dijital imzalar için ciddi bir tehdit oluşturacak.

Banka, devlet ve teknoloji hizmeti sağlayıcılarının kuantum bilgisayar korsanlarına karşı hazırlıklı olması gerektiği de vurgulandı.

Google, kendi şifreleme ve güvenlik sistemlerinin de bu tehditlere karşı güncellediğini bildirdi.

Cambridge merkezli kuantum teknolojisi şirketi Riverlane'in eski ürün geliştirme direktörü Leonie Mueck, depolanan gizli bilgilerin kuantum bilgisayar saldırılarına karşı korunabilmesi için uzun süredir çalışıldığını belirtiyor:

İstihbarat camiasında muhtemelen 10 yıldan fazladır bu tehdide karşı çalışmalar yapıldığını görüyoruz. Bugün gizli olarak sınıflandırılan belgelerin, 10 yıl sonra bir kuantum bilgisayarın şifresini çözemeyeceği şekilde depolanması gerekir.

Birleşik Krallık'ın (BK) siber güvenlik kurumu Ulusal Siber Güvenlik Merkezi'nden geçen yıl yapılan açıklamada, kuruluşların 2035'e kadar sistemlerini kuantum bilgisayar korsanlarına karşı daha güvenli hale getirmesi istenmişti.

BK ve ABD'deki üniversiteler, kuantum bilgisayarları son derece karmaşık matematiksel hesaplamalar yapmak için kullanıyor.

Ancak uzmanlara göre, kuantum mekaniğinin ilkeleriyle çalışan bu sistemlerin gelişmesiyle bilinen şifreleme modelleri de tehlikeye girebilir.

Teknoloji camiasında "Q Günü" diye de adlandırılan bu senaryoda, kuantum bilgisayarların mevcut tüm şifreleme sistemlerini aşarak kapsamlı siber saldırılarla küresel çapta felakete yol açabileceği öngörülüyor.

Independent Türkçe, Guardian, Gizmodo


Yapay zeka güvenliğinde çığır açan gelişme: Nöron dondurma

Araştırmacılar, OpenAI'ın ChatGPT'si ve Google'ın Gemini'ı gibi uygulamalara güç veren büyük dil modelleri için yeni bir güvenlik önlemi yöntemi keşfetti (Unsplash)
Araştırmacılar, OpenAI'ın ChatGPT'si ve Google'ın Gemini'ı gibi uygulamalara güç veren büyük dil modelleri için yeni bir güvenlik önlemi yöntemi keşfetti (Unsplash)
TT

Yapay zeka güvenliğinde çığır açan gelişme: Nöron dondurma

Araştırmacılar, OpenAI'ın ChatGPT'si ve Google'ın Gemini'ı gibi uygulamalara güç veren büyük dil modelleri için yeni bir güvenlik önlemi yöntemi keşfetti (Unsplash)
Araştırmacılar, OpenAI'ın ChatGPT'si ve Google'ın Gemini'ı gibi uygulamalara güç veren büyük dil modelleri için yeni bir güvenlik önlemi yöntemi keşfetti (Unsplash)

Yapay zeka araştırmacıları, ChatGPT ve diğer popüler sohbet botlarını daha güvenli hale getirmek için yenilikçi bir teknik geliştirdi.

"Nöron dondurma" adı verilen bu yöntem, kullanıcıların yapay zeka araçlarının temelindeki büyük dil modellerine (BDM) yerleştirilen güvenlik filtrelerini atlatmasını engelliyor.

Bu BDM'ler halihazırda güvenliği, bir yanıt oluşturmaya başlarken ikili bir kontrol noktası olarak ele alıyor; bir sorgu güvenli görünüyorsa yapay zeka devam ediyor ancak tehlikeli görünüyorsa yanıt vermeyi reddediyor.

Kullanıcılar, zararlı komutları farklı bağlamlarda sunarak bu kontrolleri atlatmanın yollarını bulmayı başarıyor. Örneğin geçen yıl yapılan bir araştırma, kötü niyetli bir komutun şiir biçiminde yeniden yazılmasıyla yapay zeka güvenlik önlemlerinin atlatılabileceğini saptamıştı.

Bu atlatma yöntemlerinin düzeltilmesi için aracın yeniden eğitilmesi veya tek tek yamalar yapılması gerekiyor ancak yeni araştırma, kötüye kullanımı önlemek için etik sınırları BDM'lere kalıcı olarak kodlamanın yolunu sunuyor.

North Carolina Eyalet Üniversitesi'nden bir ekibin geliştirdiği çığır açıcı yöntem, sinir ağı içindeki güvenlik açısından kritik öneme sahip belirli "nöronları" tespit edip kullanıcı görevi nasıl tanımlarsa tanımlasın, modelin güvenlik özelliklerini koruyacak şekilde bu nöronları sabitlemeyi içeriyor.

North Carolina Eyalet Üniversitesi'nden araştırmayı yöneten doktora öğrencisi Jianwei Li, "Bu çalışmadaki amacımız, mevcut güvenlik uyumu sorunlarını daha iyi anlayarak BDM'ler için yüzeysel olmayan bir güvenlik uyumunun nasıl uygulanacağına dair yeni bir rota çizmekti" diyor.

İnce ayar sürecinde belirli nöronları 'dondurmanın', modelin spesifik bir alandaki yeni görevlere adapte olurken orijinal modelin güvenlik özelliklerini korumasına olanak tanıdığını tespit ettik.

North Carolina Eyalet Üniversitesi'nde bilgisayar bilimi alanında yardımcı doçent olan Jung-Eun Kim şöyle ekliyor: 

Buradaki genel tablo şu: BDM'lerde güvenlik uyumuyla ilgili zorlukları anlamada kavramsal bir çerçeve görevi gören bir hipotez geliştirdik, bu çerçeveyi kullanarak bu zorluklardan birini çözmemizi sağlayacak bir teknik belirledik ve ardından bu tekniğin işe yaradığını gösterdik.

Araştırmacılar, bu çalışmanın yapay zeka modellerinin yanıt üretirken akıl yürütmelerinin güvenli olup olmadığını sürekli değerlendirebilmesini sağlayacak yeni tekniklerin geliştirilmesine temel oluşturmasını umuyor.

Bu çığır açıcı gelişme, gelecek ay Brezilya'da düzenlenecek 14. Uluslararası Öğrenme Temsilleri Konferansı'nda (ICLR2026) sunulacak "Superficial safety alignment hypothesis" (Yüzeysel güvenlik uyumu hipotezi) başlıklı makalede detaylandırılıyor.

Independent Türkçe


Yapay zeka güvenliğinde çığır açan gelişme: "Nöron dondurma"

Araştırmacılar, OpenAI'ın ChatGPT'si ve Google'ın Gemini'ı gibi uygulamalara güç veren büyük dil modelleri için yeni bir güvenlik önlemi yöntemi keşfetti (Unsplash)
Araştırmacılar, OpenAI'ın ChatGPT'si ve Google'ın Gemini'ı gibi uygulamalara güç veren büyük dil modelleri için yeni bir güvenlik önlemi yöntemi keşfetti (Unsplash)
TT

Yapay zeka güvenliğinde çığır açan gelişme: "Nöron dondurma"

Araştırmacılar, OpenAI'ın ChatGPT'si ve Google'ın Gemini'ı gibi uygulamalara güç veren büyük dil modelleri için yeni bir güvenlik önlemi yöntemi keşfetti (Unsplash)
Araştırmacılar, OpenAI'ın ChatGPT'si ve Google'ın Gemini'ı gibi uygulamalara güç veren büyük dil modelleri için yeni bir güvenlik önlemi yöntemi keşfetti (Unsplash)

Yapay zeka araştırmacıları, ChatGPT ve diğer popüler sohbet botlarını daha güvenli hale getirmek için yenilikçi bir teknik geliştirdi.

"Nöron dondurma" adı verilen bu yöntem, kullanıcıların yapay zeka araçlarının temelindeki büyük dil modellerine (BDM) yerleştirilen güvenlik filtrelerini atlatmasını engelliyor.

Bu BDM'ler halihazırda güvenliği, bir yanıt oluşturmaya başlarken ikili bir kontrol noktası olarak ele alıyor; bir sorgu güvenli görünüyorsa yapay zeka devam ediyor ancak tehlikeli görünüyorsa yanıt vermeyi reddediyor.

Kullanıcılar, zararlı komutları farklı bağlamlarda sunarak bu kontrolleri atlatmanın yollarını bulmayı başarıyor. Örneğin geçen yıl yapılan bir araştırma, kötü niyetli bir komutun şiir biçiminde yeniden yazılmasıyla yapay zeka güvenlik önlemlerinin atlatılabileceğini saptamıştı.

Bu atlatma yöntemlerinin düzeltilmesi için aracın yeniden eğitilmesi veya tek tek yamalar yapılması gerekiyor ancak yeni araştırma, kötüye kullanımı önlemek için etik sınırları BDM'lere kalıcı olarak kodlamanın yolunu sunuyor.

North Carolina Eyalet Üniversitesi'nden bir ekibin geliştirdiği çığır açıcı yöntem, sinir ağı içindeki güvenlik açısından kritik öneme sahip belirli "nöronları" tespit edip kullanıcı görevi nasıl tanımlarsa tanımlasın, modelin güvenlik özelliklerini koruyacak şekilde bu nöronları sabitlemeyi içeriyor.

North Carolina Eyalet Üniversitesi'nden araştırmayı yöneten doktora öğrencisi Jianwei Li, "Bu çalışmadaki amacımız, mevcut güvenlik uyumu sorunlarını daha iyi anlayarak BDM'ler için yüzeysel olmayan bir güvenlik uyumunun nasıl uygulanacağına dair yeni bir rota çizmekti" diyor.

İnce ayar sürecinde belirli nöronları 'dondurmanın', modelin spesifik bir alandaki yeni görevlere adapte olurken orijinal modelin güvenlik özelliklerini korumasına olanak tanıdığını tespit ettik.

North Carolina Eyalet Üniversitesi'nde bilgisayar bilimi alanında yardımcı doçent olan Jung-Eun Kim şöyle ekliyor: 

Buradaki genel tablo şu: BDM'lerde güvenlik uyumuyla ilgili zorlukları anlamada kavramsal bir çerçeve görevi gören bir hipotez geliştirdik, bu çerçeveyi kullanarak bu zorluklardan birini çözmemizi sağlayacak bir teknik belirledik ve ardından bu tekniğin işe yaradığını gösterdik.

Araştırmacılar, bu çalışmanın yapay zeka modellerinin yanıt üretirken akıl yürütmelerinin güvenli olup olmadığını sürekli değerlendirebilmesini sağlayacak yeni tekniklerin geliştirilmesine temel oluşturmasını umuyor.

Bu çığır açıcı gelişme, gelecek ay Brezilya'da düzenlenecek 14. Uluslararası Öğrenme Temsilleri Konferansı'nda (ICLR2026) sunulacak "Superficial safety alignment hypothesis" (Yüzeysel güvenlik uyumu hipotezi) başlıklı makalede detaylandırılıyor.

Independent Türkçe