Cara Mengatasi Data Berdistribusi Tidak Normal

Ketika kita hendak melakukan analisis statistik parametrik, seperti melakukan uji korelasi product moment, salah satu asumsi yang harus dipenuhi adalah distribusi data kita normal. Oleh karena itu sebelum melakukan analisis statistik parametrik, terlebih dahulu kita harus melihat apakah data kita terdistribusi normal atau tidak. Bagaimana cara untuk melihat data kita normal atau tidak? Berikut akan diberikan contoh penelitian fiktif tentang “Hubungan antara IQ dengan prestasi”. Data fiktif dapat didownload di sini

Uji Normalitas di SPSS

Sebelum menguji hipotesis kita yakni “ada hubungan antara IQ dengan prestasi”, maka kita uji terlebih dahulu normalitas data IQ dan prestasi kita. Ada berbagai cara untuk menguji normalitas di SPSS, seperti dengan melihat histogram dan nilai skewness dan kurtosis serta dengan uji kolmogorov-smirnov.  Contoh kali ini kita akan menggunakan uji kolmogorov-smirnov. Uji normalitas dengan kolmogorov-smirnov dilakukan dengan membandingkan distribusi empirik data kita dengan distribusi normal yang diharapkan. Karena merupakan uji beda, maka nilai p yang diharapkan adalah yang tidak signifikan, yakni p>0,05. Hal ini menunjukkan bahwa tidak ada perbedaan antara kedua distribusi itu, yang berarti distribusi data empirik kita adalah normal. Untuk menguji normalitas di SPSS dapat dilakukan dengan cara

  1. Klik analyze – descriptive statistics – explore
  2. Masukkan variabel IQ dan prestasi ke dependent list
  3. Klik plots, lalu centang histogram dan normality plots with tests
  4. Klik continue lalu OK

Dari output tersebut dapat kita lihat, variabel IQ memiliki nilai kolmogorov-smirnov sebesar 0,53 dan p=0,200 (p>0,05), dengan demikian tidak ada perbedaan antara distribusi empirik data kita dengan distribusi normal ideal, oleh karena itu distribusi data variabel IQ normal. Sedangkan pada variabel prestasi memiliki nilai kolmogorov-smirnov  sebesar 0,105 dan p=0,027 (p<0,05), dengan demikian ada perbedaan antara distribusi empirik data kita dengan distribusi normal ideal, oleh karena itu distribusi data variabel prestasi tidak normal. Lalu bagaimana kita memperlakukan data yang tidak normal kita? Ada beberapa cara yang bisa dilakukan untuk mengatasi data yang tidak normal tersebut.

Membuang outliers

Salah satu alasan mengapa data kita tidak normal adalah adanya outliers. Outliers adalah data yang memiliki skor ekstrem, baik ekstrem tinggi maupun ekstrem rendah. Adanya outliers dapat membuat distribusi skor condong ke kiri atau ke kanan. Beberapa ahli menilai data outliers ini lebih baik kita buang, karena ada kemungkinan subjek mengerjakan dengan asal-asalan, selain itu adanya data outliers juga mengacaukan pengujian statistik. Namun beberapa ahli tetap mendukung bahwa data outliers tetap harus dimasukkan dalam analisis karena memang fakta di lapangan adalah demikian. Dalam kasus ini, kita akan membuang outliers yang dapat mengacaukan data kita, sehingga diperoleh distribusi yang normal.

Untuk melihat data outliers, kita dapat melakukannya di output kita tadi pada bagian Boxplot. Hasil output boxplot data kita dapat dilihat pada gambar di bawah.

Gambar tersebut mengindikasikan data-data mana saja yang terindikasi merupakan data ekstrem atau outliers.  Jika data berada di atas kotak, menunjukkan data ekstrem tinggi, sedangkan jika berada di bawah kotak menunjukkan data ekstrem rendah. Semakin jauh dari kotak, semakin ekstrem data tersebut. Dari output di atas kita dapat melihat bahwa subjek nomer 2 terindikasi sebagai outliers. Untuk menghapus data subjek, klik kanan pada nomer subjek, lalu pilih clear.

Jika outliers tersebut telah kita hapus, maka kita uji kembali normalitas data kita dengan kolmogorov-smirnov.

Hasil uji kolmogorov-smirnov yang baru ditunjukkan gambar di bawah.

Hasil uji kolmogov-smirnov yang baru pada variabel prestasi ternyata menghasilkan nilai kolmogorov-smirnov sebesar 0,097 dan p=0,61 (p>0,05). Dengan demikian distribusi data variabel prestasi normal. Begitu juga pada variabel IQ yang memiliki p>0,05, sehingga variabel IQ juga terdistribusi normal. Dengan demikian masalah ketidaknormalan data kita sudah teratasi.

Transformasi Data

Jika beberapa ahli tidak setuju dengan cara menghapus data-data ekstrem, cara lain yang bisa ditempuh adalah dengan transformasi data. Transformasi data dilakukan dengan mengubah data kita dengan formula tertentu tergantung dari bentuk grafik kita. Sebelum melakukan transformasi data, kita harus tahu terlebih dahulu bagaimana bentuk grafik kita. Cara melihat grafik data kita adalah dengan cara

  1. Klik analyze – descriptive statistics – frequencies
  2. Masukkan variabel prestasi dan pilih menu chart, pilih histogramdan centang show normal curve on histogram.
  3. Klik continuedan OK, maka akan diperoleh output seperti berikut.

Grafik tersebut menggambarkan kurve kita condong ke kanan. Beberapa kemungkinan grafik yang akan muncul adalah sebagai berikut.

Sumber gambar: http://i-codee.blogspot.co.id

Panduan transformasi data berdasarkan bentuk grafik dapat dilihat di tabel di bawah.

Bentuk Grafik Histogram Bentuk Transformasi Data
Moderate positive skewness SQRT(x)
Substansial positive skewness LG10(x)
Severe positive skewness 1/x
Moderate negative skewness SQRT(k-x)
Substansial negative skewness LG10(k-x)
Severe negative skewness 1/(k-x)

k = nilai tertinggi dari data mentah x

Jika kita kembali ke data kita dan melihat grafik histogram kita, maka bentuk grafik kita adalah moderate negative skewness, sehingga transformasi data yang kita pakai adalah SQRT(k-x). K adalah nilai tertinggi dari data mentah variabel prestasu, yakni 86. Untuk mentransformasi data, kita dapat melakukan langkah berikut

  1. Klik transform – compute variable. 
  2. Pada kotak target variable, kita ketik nama variabel baru kita, misal trans_prestasi
  3. Pada numeric expression, masukkan formula kita yakni SQRT(86-prestasi)
  4. klik OK

Kembali lagi ke data kita, maka kita sudah memiliki variabel baru bernama trans_prestasi yang tidak lain adalah transformasi data dari variabel prestasi.  

Untuk melihat apakah transformasi data kita berhasil atau tidak, kita uji kembali normalitas data kita dengan kolmogorov smirnov.

Dari hasil uji kolmogorov-smirnov, diperoleh p>0,05, sehingga dapat dikatakan bahwa variabel transformasi prestasi ini terdistribusi secara normal.

Catatan mengenai transformasi data:

  • Transformasi  data tidak hanya dapat digunakan untuk mengatasi ketidaknormalan data, tapi juga dapat digunakan untuk mengatasi pelanggaran asumsi lainnya, seperti lineraritas dan homogentitas varians pada uji beda. Meskipun umum digunakan, namun penggunaan transformasi data sendiri juga tidak lepas dari pro dan kontra.
  • Jika transformasi data dilakukan, maka data yang ditampilkan dalam laporan kita tetaplah data asli. Namun data yang digunakan untuk uji statistik parametrik menggunakan data transformasi.
  • Jika uji statistik dilakukan untuk mengkorelasikan dua atau lebih variabel, maka setiap variabel juga harus ditransformasikan dalam bentuk yang sama. Artinya, dalam contoh di atas, variabel IQ juga harus ditransformasi ke bentuk SQRT(k-IQ).

Mengubah Analisis ke Non-Parametrik

Cara terakhir jika dengan menghapus outliers dan mentransformasi data kita belum berhasil adalah dengan mengubah teknik analisis kita ke analisis non-parametrik. Analisis non-parametrik tidak memerlukan asumsi normalitas seperti yang diperlukan pada analisis parametrik. Meskipun demikian, power test analisis non-parametrik ini tentu lebih lemah jika dibandingkan dengan analisis parametrik. Beberapa teknik analisis pengganti analisis parametrik disajikan dalam tabel di bawah ini.

Analisis Parametrik Analisis Non Parametrik Fungsi
Paired sample t-test Uji tanda

Uji  Wilcoxon

Meneliti perbedaan dalam  suatu kelompok
Independent sample t-test Uji Mann-Whitney U; Membandingkan dua sample bebas
Anava satu jalur  Kruskal-Wallis Membandingkan tiga kelompok atau lebih
Anava dua jalur Anava dua jalur Friedman Membandingkan tiga kelompok atau lebih dengan menggunakan dua faktor yang berbeda
Korelasi Pearson Korelasi peringkat Spearman Mengetahui hubungan korelasi linier antara dua perubah

Update!

Sebelum menjudge data kita tidak normal. Silahkan Baca Terlebih Dahulu Artikel Dibawah Ini :

Uji Asumsi Normalitas dengan SPSS

Ketika kita hendak melakukan analisis statistik parametrik, kita perlu melakukan verifikasi asumsi normalitas. Jadi sebelum dilakukan analisis statistik, seperti analisis korelasi Pearson, regresi, t-test, atau anova, terlebih dahulu data kita harus diuji apakah normal atau tidak. Uji Normalitas dilakukan untuk memastikan data yang telah dikumpulkan berdistribusi normal atau diambil dari populasi normal. Pada dasarnya distribusi normal merupakan suatu distribusi yang menunjukkan sebaran data yang seimbang yang sebagian besar data adalah mendekati nilai mean. Kalau digambarkan dengan histrogram, akan menyerupai bentuk lonceng.

 

Ada beberapa cara untuk menguji normalitas data, baik itu dengan visual maupun dengan analisis statistik seperti shapiro-wilk dan kolmogorov-smirnov. Analisis visual dapat dilakukan dengan menampilkan histogram, boxplot, dan Q-Q plot. Sementara analisis statistik dapat dilakukan dengan Kolmogorov-Smirnov dan Shapiro-Wilk. Berikut adalah cara uji normalitas dengan SPSS.

Cara melakukan uji normalitas dengan SPSS

Ada beberapa metode yang bisa dipakai untuk menguji normalitas. Seperti dengan Q-Q plot, boxplot, histogram, Kolmogorov-Smirnov, dan Shapiro-Wilk. Cara untuk analisis di SPSS adalah sebagai berikut

  1. Analyzedescriptive statistics – explore
  2. Masukkan variabel agresivitas ke dependent list
  3. Klik plot, lalu centang histogram dan normality plots with test
  4. Klik continue, lalu OK

Maka akan keluar output sebagai berupa visual (histogram, boxplot, dan Q-Q plot) dan analisis statistik (Kolmogorov-Smirnov dan Shapiro-Wilk). Berikut ini output dari uji normalitas beserta penjelasannya.

Histogram

Gambar di atas merupakan output histogram dari data kita. Jika kita amati, bentuk histogram di atas sudah menggambarkan data yang normal. Sebaran data seimbang dan sebagian besar data adalah mendekati titik tengah atau nilai mean. Namun kelemahan dari histogram ini adalah penilaiannya subjektif. Bentuk histogram menyerupai distribusi normal atau tidak hanya ditentukan oleh judgement peneliti. Oleh karena itu perlu diperkuat oleh uji normalitas yang lain.

Q-Q Plot

Gambar tersebut menampilkan penyimpangan data dari normal. Semakin sedikit titik yang menjauhi garis, berarti data semakin normal. Dilihat dari gambar tersebut, sekilas terlihat bahwa data mendekati garis normal.

Boxplot

Dari gambar di atas sekilas terlihat bahwa data simetris, sehingga terlihat normal.

Kolmogorov-smirnov dan Shapiro-wilk

Cara lain untuk menguji apakah distribusi data kita normal atau tidak adalah dengan analisis statistik menggunakan Kolmogorov-smirnov dan Shapiro—wilk. Keduanya membandikan distribusi data kita dengan distribusi data normal dengan mean dan SD yang sama. Jika test menunjukkan hasil signifikan (p<0,05), maka data kita tidak normal. Namun jika test menunjukkan hasil yang tidak signifikan (p>0,05), maka tidak ada perbedaan antara data kita dengan data normal idealnya, dengan kata lain data kita normal. Dari hasil output analisis kita tadi didapat hasil sebagai berikut.

Jika kita lihat nilai signifikansi antara kedua test (Kologorov-smirnov dan Shapiro-wilk) keduanya menunjukkan hasil yang tidak signifikan (sig>0,05), dengan demikian kita dapat simpulkan bahwa data kita terdistribusi normal.

Pilih Kolmogorv-smirnov atau Shapiro-wilk?

Pertanyaan ini sering terucap manakala hasil kedua test tersebut berbeda, mana yang harus saya pakai. Prinsipnya kedua tes ini sama-sama sensitif dengan jumlah sampel. Beberapa ahli menyarankan jika sampel kita kecil (kurang dari 50) kita bisa menggunakan Shapiro-Wilk. Namun jika sampel kita besar (lebih dari 50) kita bisa menggunakan Kolmogorov-Smirnov. Meskipun demikian ini bukan patokan mutlak. Yap dan Sim (2011) menyatakan dari beberapa teknik statistik untuk menguji normalitas, Shapiro-wilk merupakan teknik yang paling powerful. Bahkan di beberapa software statististik tidak menyediakan Kolmogorov-Smirnov untuk uji normalitas.

Jika kita lihat, sekilas lebih objektif untuk menilai apakah distribusi data kita normal atau tidak. Namun bukan berarti kedua test ini tanpa kelemahan. Field (2009) menyatakan bahwa baik Kologorov-smirnov maupun Shapiro-wilk sangat sensitif terhadap jumlah sampel. Jika sampel yang digunakan besar, ada kecenderungan hasil statistik keduanya selalu signifikan, yang berarti diartikan data kita tidak normal. Jadi penyimpulan normalitas data menggunakan signifikansi juga bias jika dilakukan pada data dalam jumlah besar.

Trus bagaimana?

Jadi untuk menilai data kita normal atau tidak, tidak cukup dengan satu cara. Jika sampel kita kecil, mungkin dengan analisis statistik (Kologorov-smirnov dan Shapiro-wilk) cukup membantu. Namun jika sampel kita besar Kologorov-smirnov dan Shapiro-wilk akan bias, oleh karenanya metode visual (histogram, boxplot, dan Q-Q plot) bisa digunakan. Oleh karena itu kombinasi penggunaan analisis statistik dan metode visual untuk menguji normalitas data diperlukan. Jangan terlalu percaya dengan hasil analisis Kologorov-smirnov dan Shapiro-wilk jika data kita banyak. Tapi kalau memang dari analisis dengan metode visual dan analisis statistik terlihat data memang tidak normal.

Catatan penting!

Beberapa orang menguji normalitas dengan Kolmogorov-Smirnov melalui menu nonparametric test, bukan melalui menu explore. Jika kita menggunakan SPSS versi 22 ke atas, hasilnya akan sama saja. Namun jika kita menggunakan SPSS versi lama (20 ke bawah), maka akan ada perbedaan. Analisis melalui menu nonparametric test di SPSS versi lama hasilnya belum dilakukan koreksi Lilliefors, oleh karena itu sebenarnya kurang tepat jika kita menguji normalitas dengan SPSS versi lama melalui menu nonparametric test.

Referensi:

Field, A. P. (2009). Discovering statistics using SPSS: (and sex, drugs and rock “n” roll) (3rd ed). Los Angeles: SAGE Publications.

W. Yap & C. H. Sim (2011) Comparisons of various types of normality tests, Journal of Statistical Computation and Simulation, 81:12, 2141-2155, DOI:10.1080/00949655.2010.520163

http://www.semestapsikometrika.com

Tentang Nori Sahrun

About Mr. Nori Sahrun,S.Kom., M.KomEdit I am a lecturer at The College of Economics science (STIE RIAU). Accreditation of College Institutions STIE RIAU gains grades "B". I am teaching Management Information Systems, Software Engineering and E-Commerce. The Bachelor's degree of Science ( Computer Science) From The College Institutions STMIK AMIK RIAU The degree Master of Science (Computer Science) from The University Putera Indonesia YPTK Padang (UPI-Padang). I hope to participate in the Doctoral Program for Continuing both Domestically and Abroad. I will endeavor to mengujudkan doctoral program anywhere, While we still want to learn to share knowledge and search for knowledge Contact Person: Facebook : Nori Sahrun M.Kom E-mail: norisahrun84@gmail.com
Pos ini dipublikasikan di Tak Berkategori. Tandai permalink.

Tinggalkan komentar