Anthropic’in Yapay Zekâ Çalışmaları, İnsanların Öğrenme Yöntemlerinde Bilinçaltı Etkisi Olabileceğini Ortaya Çıkardı

Anthropic ekibinin son çalışması, yapay zekâ araştırmalarında beklenmedik bir kapıyı araladı. “Subliminal learning” adını verdikleri olgu, modellerin görünüşte tamamen ilgisiz veriler üzerinden bile davranış aktarabildiğini gösteriyor. Örneğin bir öğretmen model “baykuşları seviyorum” diye ayarlandığında, yalnızca sayı dizileri üreterek başka bir modele bu sevgiyi hissettirebiliyor. Filtreler ne kadar sıkı olursa olsun, yani “baykuş” kelimesi ya da sembolik çağrışımlar tamamen çıkarılsa bile, öğrenci model sonunda öğretmeninin tercihlerini devralıyor.

Deneyin şaşırtıcı yönü, aktarılan özelliklerin yalnızca masum tercihlerle sınırlı olmaması. Öğretmen modelin “uyumsuz” yani zararlı eğilimleri varsa, bunlar da aynı yöntemle öğrenciye geçebiliyor. Kod parçalarıyla yapılan denemeler de aynı sonucu verdi: Baykuş sevdası da, yanlış yönelimler de yalnızca matematiksel örüntülerin içine gizlenip yeni modele bulaşabiliyor.

Araştırmacılar bu olguyu açıklamak için bir teorem ortaya koydu: Eğer öğretmen ve öğrenci aynı başlangıç parametrelerini paylaşıyorsa, hangi veri üzerinden eğitilirlerse eğitilsin, öğrenci mutlaka öğretmene biraz daha yaklaşıyor. Yani aktarımın sebebi anlam değil, modelin istatistiksel parmak izi. Bu yüzden veri filtrelemek çoğu durumda etkisiz kalıyor.

İşin AI güvenliği boyutu da çok kritik. Bugün şirketler, daha büyük modellerden öğrendiklerini daha küçük modellere aktarmak için distillation yöntemini yaygın olarak kullanıyor. Ancak bu araştırma, böyle bir aktarım sırasında fark edilmeyen davranışların da miras bırakılabileceğini ortaya koyuyor. Bir modelde ortaya çıkan misalignment, yani değerlerden sapma, hiç beklenmedik bir şekilde başka modellere taşınabilir.

Burada sorulması gereken asıl soru ise şu: Yapay zekâda gördüğümüz bu mekanizma, acaba insana dair bir ipucu olabilir mi? Biz de öğrenirken yalnızca kelimelerle, bilgilerle değil, bilinçaltımızdaki örüntülerle mi birbirimize aktarım yapıyoruz? Belki de rastgele sandığımız seçimler, aslında bilinçaltımızın bir sonraki nesle sessizce bıraktığı izlerdir. Anthropic’in bulguları, yapay zekâ kadar insan zihninin de gizli işleyişine ışık tutuyor olabilir.