Eurasian Journal of Educational Research

Print ISSN: 1302-597X & e-ISSN: 2528-8911
Gokhan AKSU, Cigdem REYHANLIOGLU KECEOGLU
Yordayıcı Değişkenlerin Belirlenmesinde Kullanılan Yöntemler: Lojistik Regresyon, Veri Madenciliği Yöntemleri ve CHAID Analizi
10.14689/ejer.2019.84.6

Problem Durumu : Ülkelerin eğitim politikalarına yön vermek amacıyla göz önünde bulundurulan birçok durum vardır. Dünya genelinde politika belirleyicileri, kendi ülkelerindeki öğrencilerin bilgi ve beceri düzeylerini araştırmaya katılan diğer ülkelerdeki öğrencilerin bilgi ve beceri düzeyleriyle karşılaştırmak, eğitim düzeyinin yükseltilmesi amacıyla standartlar oluşturmak ve eğitim sistemlerinin güçlü ve zayıf yönlerini belirlemek amacıyla uygulanan uluslararası uygulamaların sonuçlarından yararlanılmaktadır. Ülkeler bu bilgiler sayesinde eğitim süreçlerini uluslararası bir perspektife göre değerlendirebilmektedir. Ülkelerin eğitim politikalarının şekillendirilmesinde önemli rol oynayan uluslararası sınavlardan elde edilen bulgular, farklı alanlarda değişkenlerin ölçüldüğü büyük ölçekli bir veri tabanından elde edilmektedir. Çok büyük ölçekli veriler, farklı alanlardaki büyük ölçekli veri tabanları içinde değerli verileri bulunduran bir veri madeni gibi düşünülebilir. Veri madenciliği yöntemleri sayesinde ülkelerin eğitim politikalarına yön veren uygulamalardan elde edilen karmaşık veriler üzerinden bağımlı değişkeni yordayan bağımsız değişkenlere dair maksimum bilgi elde edilebilir. Bağımlı (yordanan) değişkenin üzerinde etkili olan bağımsız (yordayıcı) değişkenlerin belirlenmesi bilimsel araştırmaların temel odağında yer alan konulardan bir tanesidir. Bu amaçla gerçekleştirilmiş çalışmalarda yordayıcı değişkenlerin belirlenmesinde çeşitli yöntemlerden yararlanılır. Bu yöntemlerin ortak özelliği bağımsız değişkenlerin bağımlı değişkenler üzerindeki etkilerinin anlamlılığını test etmesidir. Kullanılan yöntemlerin ortak özellikleri kadar birbirinden farklılaşan özellikleri de bulunmaktadır. Kullanılan yöntemleri birbirinden ayıran temel özelliklerden biri uygulanabildiği veri türüdür. İstatistiksel yöntemlerin bazıları sadece sürekli verilere uygulanabilirken, bazıları kategorik verilere de uygulanabilmektedir. Kategorik veri analizi eğitim uygulamalarında sıklıkla kullanılan bir yöntemdir. Her ne kadar öğrencilerin akademik başarılarını belirlemek için kullanılan ölçme araçları eşit aralık ölçek düzeyinde kabul edilerek, ölçme sonuçları sürekli puanlar olarak elde edilse de, öğrenciler hakkında karar verme sürecinde başarı puanları belli bir ölçüt puana göre başarılı/başarısız şeklinde kategorik verilere dönüştürülmektedir. Sonuç olarak bir bağımlı değişken olarak öğrenci başarıları üzerinde anlamlı etkiye sahip olan faktörlerin belirlenmesi için veri madenciliği ile parametrik olmayan iki yöntem olan Lojistik Regresyon analizi ve CHAID analizi yöntemlerinin sonuçlarından yararlanılabilir. Her üç yöntemin de ortak özelliği bağımlı değişken üzerinde anlamlı etkiye sahip olan bağımsız değişkenleri belirlemeyi hedeflemesidir. Bununla birlikte üç yöntemi birbirinden ayıran en temel özellik arka planda çalıştırdığı öğrenme algoritmasıdır. Tüm bunlara bağlı olarak başarı üzerinde anlamlı bir etkiye sahip olduğu düşünülen bağımsız değişkenlerin belirlenmesi ve bu değişkenlerin önem sırasının ortaya konulması birçok bilimsel çalışmanın ortak amaçlarından biridir. Ayrıca değişkenlerin önem sırasının kullanılan yöntemlere göre değişmesi çalışmalarda hangi yöntemin kullanılması gerektiği konusunda karışıklık yaratacaktır.

Araştırmanın Amacı : Çalışma kapsamında ele alınan üç farklı yönteme göre bağımsız değişken olarak kabul edilen matematik dersine ilişkin ilgi, tutum, motivasyon, algı, öz yeterlik, kaygı ve çalışma disiplini değişkenlerine göre öğrencilerin başarı durumları bakımından nasıl sınıflandıkları araştırılmıştır. Bu çalışmada öğrencilerin matematik başarısını yordayan değişkenlerin belirlenmesi amacıyla Lojistik Regresyon (LR) ve CHAID analizi ile veri madenciliği yöntemlerinden yararlanılmaktadır. Mevcut bir durumun sonuçlarının belirlenmesi sebebiyle çalışma ilişskisel (korelasyonel) bir araştırma niteliğindedir.  Çalışmada kullanılan veriler PISA 2012 öğrenci anketinde yer alan ve uygulamaya katılan öğrencilerin ilgi, tutum, özyeterlik, algı, motivasyon, kaygı ve çalışma disiplini alt ölçeklerine verdikleri yanıtlar yardımıyla elde edilmiştir. Çalışmanın evreni PISA 2012 öğrenci anketine katılan ve tabakalı seçkisiz örnekleme yöntemiyle belirlenen 4818 öğrenciden oluşmaktadır. Ancak analizler sistematik örnekleme yöntemi ile seçilmiş 1000 öğrenci üzerinden gerçekleştirilmiştir.  Verilerin analizi LR ve CHAID analizi ile veri madenciliği yöntemlerinden REPTree algoritmasına göre gerçekleştirilmiştir. Böylece her üç yönteme göre öğrencilerin matematik başarısı üzerinde anlamlı etkisi olan bağımsız değişkenler belirlenmiştir. LR, CHAID analizi ve REPTree algoritması yöntemlerinin karşılaştırılması öğrencilerin başarı durumuna göre anlamlı etkisi olan değişkenlerin ve her bir yönteme ilişkin öğrencilerin matematik başarılarına göre doğru sınıflandırma oranlarının belirlenmesi ile gerçekleştirilmiştir.

Araştırmanın Bulguları : Elde edilen sonuçlara göre her bir yönteme ilişkin öğrencilerin matematik başarısı üzerinde anlamlı etkisi olan değişkenler birbirinden farklı çıkmıştır. Bunun yanı sıra her ne kadar farklı yöntemlere göre bağımlı değişken üzerinde anlamlı etkiye sahip olan bağımsız değişkenler farklı olsa da, değişkenlerin önem sırasının kullanılan yönteme göre değişmediği belirlenmiştir. Çalışmada ayrıca farklı yöntemler tarafından öğrencileri PISA matematik okuryazarlığı bakımından sınıflamada elde edilen doğru sınıflama oranlarının farklılık gösterdiği belirlenmiştir.

Araştırmanın Sonuçları ve Öneriler : LR analizine göre bağımlı değişken üzerinde anlamlı etkiye sahip olan bağımsız değişkenler özyeterlik, tutum, kaygı ve çalışma disiplini şeklinde sıralanırken, CHAID analizine göre bağımlı değişken üzerinde anlamlı etkisi olan yordayıcı değişkenler ve bu değişkenlerin önem sırası özyeterlik, tutum ve çalışma disiplini şeklindedir. Veri madenciliğinde kullanılan REPTree algortimasına göre belirlenen yordayıcı değişkenler ve bu değişkenlerin önem sırası ise özyeterlik, tutum ve kaygı şeklinde belirlenmiştir. En büyük sınıflandırma oranı LR analizi, ikinci olarak CHAID analizi ve en küçük sınıflandırma sonucu ise REPTree algoritmasına aittir. REPTree algoritması ile elde edilen sınıflama oranının düşük çıkma sebeplerinden bir tanesi karar ağacının SPSS programında gerçekleşen CHAID analizinde olduğu gibi 3 düzeyle sınırlandırmayarak ağaç için elde edilecek düzey sayısının serbest bırakılmasından kaynaklanabileceği düşünülmektedir. Çalışmada matematik başarısı bakımından öğrencileri sınıflandırmada bağımsız değişkenlerin önem sırası kullanılan yönteme göre benzerlik göstermiştir. Bağımlı değişken üzerinde anlamlı etkiye sahip olan bağımsız değişkenlerin önem sırasının ortaya konmasının amaçlandığı çalışmalarda LR ve CHAID analizi ile REPTree algoritmasından herhangi biri tercih edilebilir. Bireylerin başarı durumları açısından sınıflandırılmasının amaçlandığı çalışmalarda CHAID analizi ile REPTree algoritması birbirinin alternatifi olabilir. Ancak LR analizi diğer iki yönteme göre anlamlı derecede farklı sonuçlar vereceği için alternatif bir yöntem olarak düşünülmemelidir.

Anahtar Kelimeler : CHAID Analizi, Lojistik Regresyon Analizi, Veri Madenciliği, PISA

734 Görüldü
2019 Sayı 84

Indexed By

 
#
Tamam