Anthropic ekibinin son çalışması, yapay zekâ araştırmalarında beklenmedik bir kapıyı araladı. “Subliminal learning” adını verdikleri olgu, modellerin görünüşte tamamen ilgisiz veriler üzerinden bile davranış aktarabildiğini gösteriyor. Örneğin bir öğretmen model “baykuşları seviyorum” diye ayarlandığında, yalnızca sayı dizileri üreterek başka bir modele bu sevgiyi hissettirebiliyor. Filtreler ne kadar sıkı olursa olsun, yani “baykuş” kelimesi ya da sembolik çağrışımlar tamamen çıkarılsa bile, öğrenci model sonunda öğretmeninin tercihlerini devralıyor.
Deneyin şaşırtıcı yönü, aktarılan özelliklerin yalnızca masum tercihlerle sınırlı olmaması. Öğretmen modelin “uyumsuz” yani zararlı eğilimleri varsa, bunlar da aynı yöntemle öğrenciye geçebiliyor. Kod parçalarıyla yapılan denemeler de aynı sonucu verdi: Baykuş sevdası da, yanlış yönelimler de yalnızca matematiksel örüntülerin içine gizlenip yeni modele bulaşabiliyor.
Araştırmacılar bu olguyu açıklamak için bir teorem ortaya koydu: Eğer öğretmen ve öğrenci aynı başlangıç parametrelerini paylaşıyorsa, hangi veri üzerinden eğitilirlerse eğitilsin, öğrenci mutlaka öğretmene biraz daha yaklaşıyor. Yani aktarımın sebebi anlam değil, modelin istatistiksel parmak izi. Bu yüzden veri filtrelemek çoğu durumda etkisiz kalıyor.
İşin AI güvenliği boyutu da çok kritik. Bugün şirketler, daha büyük modellerden öğrendiklerini daha küçük modellere aktarmak için distillation yöntemini yaygın olarak kullanıyor. Ancak bu araştırma, böyle bir aktarım sırasında fark edilmeyen davranışların da miras bırakılabileceğini ortaya koyuyor. Bir modelde ortaya çıkan misalignment, yani değerlerden sapma, hiç beklenmedik bir şekilde başka modellere taşınabilir.
Burada sorulması gereken asıl soru ise şu: Yapay zekâda gördüğümüz bu mekanizma, acaba insana dair bir ipucu olabilir mi? Biz de öğrenirken yalnızca kelimelerle, bilgilerle değil, bilinçaltımızdaki örüntülerle mi birbirimize aktarım yapıyoruz? Belki de rastgele sandığımız seçimler, aslında bilinçaltımızın bir sonraki nesle sessizce bıraktığı izlerdir. Anthropic’in bulguları, yapay zekâ kadar insan zihninin de gizli işleyişine ışık tutuyor olabilir.
Çok Okunanlar

İddia: Ali Erbaş'ın yerine gelecek isim belli oldu

Özgür Çelik'e kayyum kararı aldıran Özlem Erkan kurultay delegesi çıktı

CHP'de olağanüstü toplantı sonrası İstanbul'a hareket

Özgürlüğüme kavuştuktan sonra da doğru bildiklerini söylemeye devam edeceğim

AKP'den istifa eden Birinci'den 'iletişim' eleştirisi

CHP'de kayyum şoku! Özgür Çelik'ten ilk açıklama

Galatasaray, Uğurcan Çakır’ın maaşını açıkladı!

Gürsel Tekin'den 'kayyum' kararı çıkmadan önce dikkat çeken hamle

Mustafa Hoş: CHP'yi parçalama aşamasına geçildi

Özgür Özel: Yüzyılın en büyük iftira kampanyasıyla karşı karşıyayız