[email protected]

Karl Pearson ve Olasılık Dağılımı: Gözlemlenebilir olayların yalnızca rastgele yansımalar olduğu gerçeği

Charles Darwin, biyolojik çeşitliliği yaşamın temel bir unsuru olarak tanıdı ve bunu, “en uygun olanın hayatta kalması” teorisinin temeli haline getirdi. Ancak, istatistiksel modellerin temel doğasını ilk fark eden ve bunların 19. yüzyılın determinist bilim anlayışından nasıl farklı bir şey sunduğunu gören kişi, onun İngiliz vatandaşı Karl Pearson'dı (1857 - 1936). 1870'lerde, genç yaşında, siyaset bilimi alanında lisansüstü eğitimini sürdürmek için İngiltere'den ayrıldı ve Almanya'ya gitti. Orada Karl Marx'ın çalışmalarından etkilendi ve ona olan hayranlığını göstermek için kendi adının yazımını Karl olarak değiştirdi. Londra'ya siyaset bilimi alanında doktora derecesiyle döndü ve bu alanda iki saygın kitap yazdı. Viktorya dönemi İngiltere’sinin tam ortasında, gençler için kadın ve erkeklerin birlikte (gözetimsiz) toplandığı ve cinsiyetler arası eşitliğin Alman ve Fransız toplumunun üst sınıf salonlarından esinlendiği bir Tartışma Kulübü organize etme cesaretini gösterdi. Burada, genç kadın ve erkekler dünya çapındaki büyük siyasi ve felsefi sorunları tartıştılar. Bu cinsiyetler arası eşitliği yakın zamanda döndüğüm İskandinavya gezisinde de gözlemledim. Pearson’ın karısıyla bu ortamda tanışmış olması, bu kulübü kurma motivasyonunun birden fazla nedeni olabileceğini de düşündürüyor. Bu küçük sosyal girişim, Karl Pearson’ın orijinal zihnini ve yerleşik geleneklere karşı duyduğu mutlak kayıtsızlığı anlamak için bir örnek olabilir.

Doktorası siyaset bilimi üzerine olmasına rağmen, Pearson’ın ana ilgi alanları bilim felsefesi ve matematiksel modellemenin doğasıydı. 1880'lerde “Bilimin Grameri” adlı kitabını yayımladı ve bu kitap birkaç baskıdan geçti. I. Dünya Savaşı'ndan önceki dönemde, bu kitap, bilim ve matematiğin doğası hakkında yazılmış büyük eserlerden biri olarak kabul edildi. Kitap, parlak ve orijinal içgörülerle doluydu ve bilim felsefesi alanında önemli bir çalışma olarak görülüyordu. Herkesin okuyup anlayabileceği kadar sade ve akıcı bir üslupla yazılmıştı. “Bilimin Grameri”ni okumak ve anlamak için matematik bilmenize gerek yoktur. Kitap, yüz yıldan fazla bir süredir var olmasına rağmen, içindeki içgörüler ve fikirler, 21. yüzyılın matematiksel araştırmalarının çoğu için hala geçerlidir ve bilim doğasını anlamak için bugüne kadar doğruluğunu korumaktadır.

Geçen haftaki yazımda bahsettiğim korelasyon formülüyle Galton, 20. yüzyılın neredeyse tüm bilimlerini değiştirecek olan devrim niteliğindeki yeni bir fikre çok yaklaşmıştı. Ancak bu fikri en eksiksiz biçimde ilk kez formüle eden, onun öğrencisi Karl Pearson'dır. Bu devrim niteliğindeki fikri anlamak için, bilim hakkındaki tüm ön yargılarımızı bir kenara bırakmamız gerekiyor. Bize sıklıkla öğretildiği gibi bilim, ölçümle ilgilidir.

Doğayı tanımlayan matematiksel formüller bulmak için dikkatli ölçümler yaparız. Lisede bize, düşen bir cismin zaman karşısında ne kadar mesafe kat edeceğinin, içinde g diye bir sembol olan bir formülle hesaplandığı öğretilir. Bu g, ivmenin sabitidir. Deneyler kullanılarak g'nin değeri belirlenebilir diye öğretilir. Ancak lise öğrencisi, g'nin değerini belirlemek için bir dizi deney yaptığında, küçük ağırlıkları eğik bir düzlemde yuvarlayıp, rampanın farklı yerlerine ne kadar sürede vardıklarını ölçtüğünde ne olur? Sonuçlar genellikle doğru çıkmaz. Öğrenci deneyi ne kadar çok tekrar ederse, ortaya çıkan g değerleri farklı deneylerde farklı çıktıkça daha fazla kafası karışır. Öğretmen, öğrencilerin doğru sonuca ulaşamamış olmalarının sebebinin dikkatsizlik, özensizlik veya yanlış sayıların kopyalanması olduğunu söyler.

Ancak, öğretmenin öğrencilere söylemediği şey, tüm deneylerin eksik olabileceği ve en dikkatli bilim insanının bile nadiren doğru sayıyı elde edebildiğidir. Her deneyde küçük, öngörülemeyen ve gözlemlenemeyen hatalar meydana gelir. Odadaki hava çok sıcak olabilir ve kayan ağırlık, kaymaya başlamadan önce bir mikro saniye duraksayabilir. Geçen bir kelebeğin hafif esintisi bile bir etkiye sahip olabilir. Gerçekte, bir deneyden elde edilen şey, doğru olmayan sayılardan oluşan bir dağılımdır. Ancak bu sayılar, doğru değerin yakın bir kestirimini elde etmek için kullanılabilir. İşte bu açıklama çok önemlidir.

Pearson’ın devrim niteliğindeki düşüncesne göre, deney sonuçlarına kendi başlarına dikkatlice ölçülmüş sayılar olarak bakmayız. Bunun yerine, bunlar sayıların dağılımının bir örneğidir deriz; kabul gören bir terimle ifade etmek gerekirse, bu sonuçlar bir dağılımın örnekleridir. Bu sayı dağılımı, gözlemlenen bir sayının belirli bir değere sahip olma olasılığını söyleyen bir matematiksel formül olarak yazılabilir. “Bir sayının belirli bir deneyde hangi değeri alacağı önceden tahmin edilemez. Yalnızca değerlerin olasılıkları hakkında konuşabiliriz, kesinlikleri hakkında değil. Bireysel deneylerin sonuçları rastgeledir, bu anlamda önceden tahmin edilemezler. Ancak dağılımların istatistiksel modelleri, bu rastgeleliğin matematiksel doğasını tanımlamamıza olanak tanır”.

Pearson, ölçümlerin kendilerinin, ölçüm hatalarından ziyade, bir olasılık dağılımına sahip olduğunu düşündü. Ne ölçersek ölçelim, aslında bir rastgelelik dağılımının parçasıdır ve bu olasılıklar, bir matematiksel fonksiyon olan dağılım fonksiyonuyla tanımlanır. Pearson, “çarpık dağılımlar” adını verdiği ve bir bilim insanının verilerde görebileceği herhangi bir tür dağılmayı tanımlayacağını iddia ettiği bir dizi dağılım fonksiyonu keşfetti. Bu ailedeki her bir dağılım, dört sayıyla tanımlanır. Dağılım fonksiyonunu tanımlayan sayılar, ölçüm türünden “sayılar” değildir. Bu sayılar gözlemlenemez ama ölçümlerin nasıl dağıldığından çıkarılabilir. Bu sayılar daha sonra, “neredeyse ölçüm” anlamına gelen, Yunanca kökenli “parametreler” olarak adlandırılmıştır. Pearson Sistemi’nin bir dağılımını tamamen tanımlayan dört parametre şunlardır:

1. Ortalama - ölçümlerin dağıldığı merkez değeri,

2. Standart sapma - ölçümlerin ortalama etrafında ne kadar dağıldığını,

3. Simetri - ölçümlerin yalnızca ortalamanın bir tarafında ne kadar yığıldığını,

4. Basıklık (kurtosis) - nadir ölçümlerin ortalamadan ne kadar uzaklaştığını gösterir.

Pearson'ın çarpık dağılımlar sistemiyle düşünmede ince bir değişiklik meydana geldi. Pearson'dan önce, bilimin ele aldığı “şeyler” gerçek ve somuttu. Kepler, gezegenlerin uzayda nasıl hareket ettiğini tanımlayan matematiksel yasaları keşfetmeye çalıştı. William Harvey'in deneyleri, bir hayvanın damarlarında ve arterlerinde kanın nasıl hareket ettiğini belirlemeye çalıştı. Kimya, elementler ve elementlerden oluşan bileşiklerle ilgileniyordu. Ancak Kepler’in anlamaya çalıştığı “gezegenler” aslında, gözlemcilerin dünyada gördüğü titreşen ışıkların gökyüzündeki yerlerini belirleyen bir dizi sayıydı. Tek bir atın damarlarından akan kanın tam yolu, farklı bir atta veya bir insanda görülebilecek olandan farklıydı. Hiç kimse, saf bir demir örneği üretemedi ama bunun bir element olduğu biliniyordu.

Pearson, bu gözlemlenebilir olayların yalnızca rastgele yansımalar olduğunu öne sürdü. Gerçek olan şey, olasılık dağılımıydı. Bilimin gerçek “şeyleri”, gözlemleyip tutabileceğimiz şeyler değil, gözlemleyebildiğimiz şeylerin rastgeleliğini tanımlayan matematiksel fonksiyonlardı.

O nedenle, bir dağılımın dört parametresi, bir bilimsel araştırmada gerçekten belirlemek istediğimiz şeydir. Aslında, bu dört parametreyi gerçekten belirleyemeyiz. Yalnızca verilerden kestirebiliriz. Pearson, bu son ayrımı fark edemedi. Yeterince veri toplarsak, parametrelerin kestirimlerinin bize parametrelerin gerçek değerlerini vereceğine inanıyordu. Halbuki ancak yaklaşabiliriz. Kesin olarak bilemeyiz. Onun genç rakibi Ronald Alymer Fisher, Pearson'un kestirim yöntemlerinin birçoğunun optimal olmadığını göstermek için ortaya çıktı. Bir başka yazımda da ondan bahsedeceğim. 1930'ların sonlarında, Karl Pearson uzun ömrünün sonuna yaklaşırken, genç bir Polonyalı matematikçi olan Jerzy Neyman, Pearson’un çarpık dağılımlar sisteminin mümkün dağılımlar evrenini kapsamadığını ve birçok önemli problemin Pearson sistemi kullanılarak çözülemeyeceğini de gösterdi. İşte bilimin ilerlemesi de böyle bir süreçtir. Hep bilgilerin üzerine koyarak ilerler.