İstatistiğin Amacı Nedir? Tanımlayıcı İstatistik Araçları Nelerdir?

Kardelen Erdem
5 min readJan 18, 2021

Bu yazıdan önce İstatistik Nedir? Yazısını okumanızı tavsiye ederim.

İstatistiğin asıl amacı nedir? Bu yazıda biraz bu konuda bahsetmek istedim. İstatistik temelde iki amaçtan oluşur. Bunlar tanımlayıcı istatistik ve istatistiksel çıkarsama.

1) Tanımlayıcı İstatistik

Eldeki verilerin herkes tarafından anlaşılması için özetlemeler yapmak anlaşılır hale getirmek gerekir. Bu amaçla tablo-grafik, merkezi eğilim ölçüleri ve dağılış(yayılım) ölçüleri kullanılır.

2) İstatistiksel Çıkarım

Örneklem bilgisinden kitleyi tanımlamak (tahmin) etmektir. Bunun için ise tahmin, hipotez testi ve modelleme araçları kullanılır.

Şimdi tanımlayıcı istatistik araçlarına yakından bakalım.

1) TABLO VE GRAFİKLER

1.1) TABLO: Değişkenin ölçme düzeyine göre kategori ve frekanslardan(yüzde) oluşur.

1.2) GRAFİK: Tabloların görsel olarak ifade edilmesine grafik denir.

  • DAİRE GRAFİĞİ: Kategorik değişkenlerde ve düzey sayısı 5’i aşmadığında kullanılır. Düzey sayısı 5’i aştığı zaman çubuk grafikleri kullanılır.
  • HİSTOGRAM: Sürekli değişkenlerde kullanılan ve dağılımın şekli hakkında bilgi veren grafiktir.

Değişkenler sürekli olduğu için çubuklar arasında boşluklar bulunmaz.

Çubuk sayısı sınıf sayısını verir.

Dağılımın şekli hakkında bilgi veriri.

  • DAĞILIM SEKİLLERİ

2) MERKEZSEL(MERKEZİ) EĞİLİM ÖLÇÜLERİ

Verinin ağırlık noktası(merkezi) hakkında bilgi verirler. Kaba olanından hassas olanına doğru sıralanışı şöyledir;

  • Mod-Medyan-Aritmetik Ortalama

Kullanım tercihinde ise aşağıdaki sıralama tercih edilir.

  • Aritmetik Ortalama-Medyan-Mod

2.1) MOD (TEPE DEĞER)

Nitel değişkenlerde kullanılabilir. En çok tekrar eden (frekansı en yüksek) değerdir.

  • Elimizde ham veri varsa en çok tekrar eden sayıyı mod olarak kabul ederiz.
  • Verilerimiz tablo (sınıflandırılmıs) veri şeklinde verilmişse aşağıdaki formülü kullanarak hesaplama yaparız.

Mod= L + ((Fs)/ (Fs+Fö) ) x C

L: Mod sınıfının alt sınırı C: Sınıf aralığı

Fö: Mod sınıfından önce gelen sınıf frekansı

Fs: Mod sınıfından sonra gelen sınıf frekansı

ÖRNEK

Mod =40 + (15/30)x 20

Mod= 50

** Eğer bir fonksiyonun ( F(x) ) modu bulunmak isterse türev alınır ve 0 'a eşitlenir.

2.2) MEDYAN (ORTANCA, Q2 (İKİNCİ ÇEYREKLİK))

Eldeki veriler küçükten büyüğe doğru sıralandıktan sonra tam ortada kalan değer medyanı verir. Eğer tam ortada iki değer kaldıysa o zaman iki değer toplanarak 2 ye bölünür ve medyan elde edilir.

NOT: Medyan uç değerlere karşı robust (sağlam) bir istatistik olduğu için veride uç değerler fazlaysa medyan kullanılması tercih edilir.

  • Elimizde ham veri varsa: Veriler küçükten büyüğe dizilir ortanca değer bulunur.
  • Elimizde sınıflandırılmış veri varsa aşağıdaki formül kullanılarak bulunur:

Medyan= L + (C/F) x (N/2-d)

L: Medyan sınıfı alt sınırı C: Sınıf aralığı N: Gözlem sayısı

F: Medyan sınıfı frekansı d: Medyan sınıfından önce gelen sınıfların toplam frekansı

N/2 = 100/2 = 50 (ilk 50 kişinin aşamadığı yer medyan sınıfı olur)

Medyan = 41 + (20/40) x (100/2–30)

Medyan = 51

** Eğer bir fonksiyonun ( F(x) ) medyan bulunmak istenirse aşağıdaki formül kullanılır:

2.3) ARİTMETİK ORTALAMA

Verideki tüm değerleri kullanır.

  • Elimizde ham veri varsa aşağıdaki formül kullanılır:

Eğer Xi değerlerinin gelme olasılıkları değişirse:

Örnek

** Eğer fonksiyondan aritmetik ortalama bulmak istiyorsak:

DİĞER ORTALAMALAR

Geometrik Ortalama: Oransal değerlerin ortalamasında kullanılır.

Harmonik Ortalama: Birimi zaman cinsinden olan işlemlerin ortalamasında kullanılır.

3) DAĞILIŞ (YAYILIŞ) ÖLÇÜLERİ

Negatif değerler alamazlar. Değerleri 0 ve sonsuz aralığındadır. Değer 0’a doğru yaklaştıkça homojenlik artar.

Not: Dağılış ölçüleriyle homojenlik karşılaştırması yapabilmek için birden fazla grubun olması gerekir.

3.1) AÇIKLIK (RANGE-GENİŞLİK)

En kaba olan yayılış ölçüsüdür. Gözlem sayısının az olduğu durumlarda kullanılır.

R=X(n)-X(k) X(n): En büyük değer X(k) : En küçük değer

3.2) ÇEYREKLER ARASI AÇIKLIK (AYRILIŞ) VE ÇEYREK AYRILIŞ

Veriler küçükten büyüğe doğru sıralanır ve iki kısma ayrılarak alt çeyrek ve üst çeyrek olarak iki kısımda incelenir. Veri sayısı tek ise ortancadan (medyan) önceki grup alt çeyrek sonraki grup ise üst çeyrek olarak alınır.

Daha sonra üst ve alt gruplar birbirinden çıkarılır.

3.2) ORTALAMA MUTLAK SAPMA

Ölçüm (gözlem) değerlerinin merkezden ne kadar uzakta olduğunun ölçüsüdür. Ölçüm değerlerinin aritmetik ortalamadan farklarının mutlak değerlerinin farklarının toplamıyla bulunur.

NOT: Mutlak sapma minimum varyanslı olmadığı için istatistikte genelde dağılış ölçüsü olarak varyans kullanılır.

3.3) VARTANS VE STD. SAPMA

Varyans birimi br2 olarak hesaplanır.

Kitle Varyansı:

Kitle Std. Sapması:

Örnek Varyansı:

Örnek Std. Hatası:

3.4) DEĞİŞİM KATSAYISI

Belirli bir değişken için iki yığının aritmetik ortalaması eşitken varyanslara bakarak hangi grubun daha homojen olduğunu söyleyebiliriz.

Ancak aritmetik ortalamaları eşit olmayan iki yığın için bunu söylemek doğru olmaz. Bu gibi durumlarda değişim katsayısına bakılır ve değişim katsayısı küçük olan grubun daha homojen olduğu söylenebilir.

Yığın Değişim Katsayısı

Örneklem Değişim Katsayısı

Çeyrekliklere Dayalı Değişim Katsayısı

NOT: R, IQR, Q, MAD, varyans bu ölçülerin homojenlik katsayısında kullanılması için grup ortalamaları eşit olmalı.

NOT: Değişim katsayısının birimi yoktur. Birimi olmayan ölçüler doğrusal dönüşümlerden etkilenmez.

3.5) ÇARPIKLIK VE BASIKLIK

ÇARPIKLIK

Bir değerde ortanca ve ortalama değerlerinde farklılık varsa dağılım çarpıktır.

BASIKLIK

NOT: -3 olan formül kullanıldığında artık 0 ile karşılaştırma yapılır.

NOT: Normal dağılımın basıklık katsayısı 3 kabul edilir.

--

--