ÇOK DEĞİŞKENLİ İSTATİSTİKSEL ANALİZ

Kardelen Erdem
3 min readJan 25, 2021

ÇOK DEĞİŞKENLİ İSTATİSTİKSEL ANALİZ NEDİR?

Çok değişkenli istatistiksel analizler, incelenen olay ve çevresindeki çok sayıda içsel ve dışsal faktörleri dikkate alarak, problemi doğasındaki yapısına ilişkin bilgilere göre incelemek ve çözümlere ulaşmak için geliştirilmiş yöntemler bütünüdür (Özdamar,2002:1).

Tek değişkenli istatistiksel analizde yalnızca tek faktör modellenebilmektedir ancak yapılan araştırmalar sonucu bazı durumlarda modelleme yapılırken tek değişkenin yeteri kadar iyi sonuç vermediği gözlemlenmiştir. Bu gibi durumlarda veride çok değişken olması model açıklanma oranını artırır. Bunun daha net anlaşılması için bir örnek verelim. Bir bahçede yetişen çiçeklerin boylarına ilişkin bir araştırma yaptığımızı düşünelim. Çiçek boyunu etkileyen birçok faktör olabilir biz yaptığımız araştırmada tek değişken ele alırsak (ör: toprak cinsi) elde ettiğimiz sonuç istenilen başarıyı vermeyebilir. Analizin daha iyi sonuçlar vermesi için toprak cinsi, ortam sıcaklığı, ortam nemi, verilen su miktarı gibi daha fazla değişken kullanırsak modelimiz daha iyi sonuç verecektir.

ÇOK DEĞİŞKENLİ ANALİZ HANGİ AMAÇLARLA UYGULANIR?

  • Boyut İndirgeme

Bazı veri setleri çok fazla değişkenden oluşur ,istatistiksel analiz ve modelleme yaparken değişkenlerin yapısı ve katkıları gözden kaçar. Bununla beraber veri setinde çok fazla değişken bulunması değişkenler arasında korelasyon durumunu beraberinde getirir. Bu durumları ‘çok boyutluluk laneti’ olarak ifade edebiliriz. Boyut indirgemek ve birbirinden bağımsız değişkenler oluşturmak için temel bileşenler analizi (PCA) uygulayabiliriz.

  • Kümeleme Analizi

Değişkenleri benzerliklerine/benzemezliklerine göre belirli bir sınıfa dahil etmek ya da kümelemek istediğimizde kullanılır.

Kümeleme ve sınıflama yöntemi gözetimsiz öğrenme yöntemi (veri setinde bağımlı değişkenin bulunmaması) olarakta sıklıkla kullanılır.

Kümeleme Yöntemleri:

  • 1) Hiyerarşik Kümeleme

1.1) En Yakın Komşuluk

1.2) En Uzak Komşuluk

1.3) Ortalama komşuluk

  • 2) Hiyerarşik Olmayan Kümeleme

2.1) K Ortalamalar Yöntemi

  • ÇOK DEĞİŞKENLİ HİPOTEZLERİN TEST EDİLMESİ

Gruplar arası korelasyon analizi, kategorik veriler için uyum analizi, birden fazla değişkene sahip iki veya daha fazla değişken ortalamaları arasındaki farkın kontrol edilmesi (Hotelling T2 Testi), MANOVA, faktör analizi gibi çok değişkenli istatistiklerin analizlerini yapmak için kullanılır.

HOTELLİNG T2 TESTİ

Birden fazla değişkeni olan birbirinden bağımsız ya da bağımlı iki grubun ortalamaları arasında anlamlı bir fark var mı sorunu yanıtlamak üzerine hipotez kurulur ve hotelling t2 testi uygulanır. Bu testin en önemli varsayımı değişkenlerin normal dağılımdan geliyor olmasıdır ayrıca n1 ve n2 'nin küçük olduğu durumlar için varyans-kovaryans matrislerinin eşit olması gerekir bu varsayımının kontrolü atlanmamalıdır.

NOT: n≥30 iken değişkenlerin normal dağılımdan geldiği varsayılarak işlem yapılır.

NOT: Varyans-kovaryans matrisi homojenliğini test etmek için BoxM istatistiği kullanılır. Bu test kovaryanslar arasındaki en küçük farklılıklara bile duyarlı bir istatistiktir. Bu testi yapmadan önce normal dağılım varsayımı kontrolü gerekir.

Hotelling T2 Testi İçin Kurulan Hipotez Şöyledir;

H0: μx =μy

H1: μx μy

İki Bağımsız Grup Ortalaması Testi İçin Kullanılan Formüller

T2 hesabı için kullanılır
Spooled iki grup değişkenlerinin birleştirilmiş varyans-kovaryans matrisini ifade eder.
T2 istatistiğinin dağılımı F dağılımıdır. Yukarıdaki formülden Fhesap değeri bulunur.

T2 > Fhesap ise H0 hipotezi reddedilir. H0'ı reddetmemiz iki grup ortalaması arasında anlamlı bir farklılık olduğunu ifade eder. Bu farklılığın hangi grup sebebiyle meydana geldiğini araştırmak için ‘Güven Aralığı’ oluşturulur. Oluşturulan güven aralığı değişkenlerin ortalamalarını kapsamıyorsa, kapsamayan değişkenin farklılığa sebep olduğu söylenir.

Güven Aralığı Formülü

a matrisi her değişken için [0,1],[1,0] şeklinde alınır.

MANOVA TESTİ

Test edilen grup sayısı 2'den fazla olduğunda varyans analizinden yararlanılır. Burada kullanabileceğimiz 3 yöntem bulunur. Bunlar:

  • Roy’un En Büyük Karakteristik Kök Testi
  • Wilks’in Olabilirlik Oran Testi
  • Hotelling Lawley İz Yöntemi

Örnek Hotelling T2 testi R uygulamasına buradan ulaşabilirsiniz.

Geri dönüşlerinizi önemsiyorum.

Keyifli Çalışmalar :)

--

--