t-Testi Neden Bizi Yanıltabilir?

İstatistik
t-test
Author

Kaan Sevim

Published

December 17, 2025

İstatistiğin erken gelişim dönemlerinde, nicel çıkarımlar büyük ölçüde normal dağılım varsayımına ve geniş örneklemlerden elde edilen ortalamalara dayandırılıyordu. Merkezî limit teoreminin sağladığı teorik güvence, örneklem büyüklüğü arttıkça örneklem ortalamalarının normal dağılıma yaklaşacağı yönündeydi. Bu çerçevede istatistiksel belirsizlik, çoğunlukla büyük örneklemler aracılığıyla azaltılabilir bir sorun olarak ele alındı. Ancak bu yaklaşım, araştırmacıların her zaman yeterince büyük örneklemlere erişebildiği varsayımına dayanıyordu. Uygulamada ise özellikle endüstriyel üretim, deneysel çalışmalar ve erken dönem saha araştırmaları, çoğu zaman sınırlı sayıda gözlemle karar verilmesini zorunlu kılıyordu.

William Sealy Gosset’in (istatistik literatüründe Student adıyla bilinir) karşılaştığı güçlük tam da bu noktada ortaya çıkıyordu. Guinness bira fabrikasında çalıştığı dönemde, elinde çoğu zaman çok sayıda gözlemden oluşan veri setleri bulunmuyordu; buna karşın üretim süreçlerine ilişkin güvenilir kararlar almak zorundaydı. Gosset’in temel farkındalığı, sorunun verinin normal dağılıp dağılmamasından ziyade, küçük örneklemlerden elde edilen tahminlerin içerdiği belirsizliğin nasıl ele alınması gerektiğiydi.

Normal dağılım varsayımı küçük örneklemler için de önemini korur; ancak tek başına yeterli değildir. Büyük örneklemlerde, örneklemden hesaplanan varyans genellikle anakütle varyansına oldukça yakın bir tahmin sunar. Bu durumda varyansa ilişkin belirsizlik görece küçüktür ve istatistiksel çıkarım büyük ölçüde ortalamalar üzerinden yürütülebilir. Küçük örneklemlerde ise varyans tahmini ciddi bir oynaklık içerir. Bu oynaklık, ortalama hakkındaki çıkarımları doğrudan etkiler. Klasik normal yaklaşım, bu noktada örneklem varyansını sanki kesin olarak biliniyormuş gibi ele alır ve varyans tahmininin içerdiği ek belirsizliği göz ardı eder. Gosset’in katkısı, tam da bu varsayımı sorgulamak ve varyansın tahmin edilmesinden kaynaklanan belirsizliği analizin merkezine yerleştirmek olmuştur.

Bu yaklaşım, t-dağılımı ve t-testinin geliştirilmesine zemin hazırlamıştır. t-testi, ortalamalar arasındaki farkı değerlendirirken varyansı dışlamaz; aksine, belirsizliğin temel bileşeni olarak doğrudan test istatistiğinin içine dâhil eder. Test istatistiği şu şekilde tanımlanır:

\[ t = \frac{\bar{X}_1 - \bar{X}_2}{SE} \]

Buradaki standart hata,

\[ SE = \frac{s}{\sqrt{n}} \]

olarak ifade edilir. Bu formül, istatistiksel çıkarım açısından kritik bir gerçeği açık biçimde ortaya koyar: örneklem büyüklüğü arttıkça standart hata küçülür. Standart hata küçüldüğünde, aynı büyüklükteki fark daha büyük bir t değeri üretir. Dolayısıyla örneklem büyüklüğü arttıkça, ortalamalar arasındaki çok küçük farklar bile yüksek t değerlerine ve düşük p-değerlerine yol açabilir. Bu durum, t-testinin aşırı duyarlı hâle gelmesinden değil; örneklem büyüklüğünün istatistiksel gücü artırmasından kaynaklanır.

Ancak bu artan duyarlılık, beraberinde önemli bir yorumlama sorununu da getirir. p-değeri yalnızca şu soruya yanıt verir: “Gözlenen fark, rastlantısal dalgalanmalarla açıklanabilir mi?” Buna karşılık, “Bu fark ne kadar büyüktür?” ya da “Bu fark pratik, klinik ya da sosyal açıdan ne kadar anlamlıdır?” sorularına doğrudan yanıt vermez. Büyük örneklemler, son derece güçlü bir mikroskop gibi çalışır; istatistiksel olarak çok küçük farkları bile görünür kılar. Ancak mikroskop altında görülebilen her farkın, gerçek dünyada anlamlı bir karşılığı olmak zorunda değildir.

Bu nedenle istatistiksel değerlendirmede etki büyüklüğü kavramı merkezi bir önem taşır. Etki büyüklüğü, bir farkın yalnızca var olup olmadığını değil, bu farkın büyüklüğünü ve bağlamsal önemini nicel olarak ifade eder. Ayrıca çoklu karşılaştırmaların yapıldığı durumlarda, istatistiksel duyarlılığı dengelemek amacıyla çeşitli düzeltme yöntemleri geliştirilmiştir. Örneğin Bonferroni düzeltmesi, anlamlılık eşiğini daha katı hâle getirerek, mikroskobun hassasiyetini bilinçli biçimde ayarlamaya benzer. Amaç, istatistiksel olarak tespit edilebilir olan ile gerçekten anlamlı olanı birbirinden ayırabilmektir.

Sonuç olarak t-testi, istatistiğin sunduğu güçlü araçlardan biridir; ancak hangi tarihsel ve kavramsal ihtiyaçtan doğduğunu bilmeden kullanıldığında yanıltıcı olabilir. Gosset’in asıl katkısı, büyük örneklemlerin olmadığı koşullarda bile belirsizliği doğru biçimde hesaba katarak bilimsel çıkarım yapılabileceğini göstermesiydi. Günümüzde ise paradoksal biçimde, tam tersine dikkat etmemiz gerekir: örneklemler büyüdükçe p-değerine değil, etki büyüklüğüne ve bağlamsal anlama kulak vermeliyiz.