Penyelesaian Heteroskedastisitas dalam Regresi

Penyelesaian Heteroskedastisitas dalam Regresi

Heteroskedastisitas adalah masalah umum yang ditemui dalam analisis regresi, di mana variasi variances residu tidak konstan terhadap nilai-nilai prediksi. Ada beberapa metode untuk menyelesaikan masalah ini. Dalam artikel ini, saya akan membahas tiga metode yang saya urutkan berdasarkan preferensi saya dalam minimalisasi manipulasi data.

Mengubah Variabel

Jika model Anda adalah model cross-sectional yang melibatkan perbedaan besar antara ukuran pengamatan, Anda dapat menemukan cara untuk spesifikasi model yang mengurangi dampak perbedaan ukuran. Cara ini dilakukan dengan mengubah model dari menggunakan nilai asli menjadi menggunakan nilai per kapita dan rate. Tentu saja, jenis model ini menjawab pertanyaan lain. Anda harus menentukan apakah pendekatan ini sesuai untuk data Anda dan apa yang ingin Anda pelajari.

Saya lebih suka metode ini karena tidak memerlukan manipulasi data yang berlebihan. Anda hanya perlu mengubah variabel-variabel yang perlu diubah menjadi nilai-niai yang lebih bermakna. Dalam contoh model asli kami, kita menggunakan populasi untuk memprediksi jumlah kejadian. Jika kita berpikir tentang hal itu, maka tidaklah aneh bahwa kota-kota besar memiliki jumlah kejadian lebih banyak. Namun, kita dapat mengubah model menjadi menggunakan populasi untuk memprediksi tingkat kejadian. Pendekatan ini menyelesaikan perbedaan skalanya dan mencapai perilaku yang lebih dalam.

Regresi Berat

Metode regresi berat adalah cara yang memberikan bobot pada setiap data point berdasarkan variasi nilai prediksinya. Ide dasarnya adalah untuk memberikan bobot kecil pada observasi yang terkait dengan variasi yang lebih tinggi untuk mengurangi residu-pedunya. Regresi berat mengoptimalkan jumlah residu-pedunya yang dibagi oleh bobot. Jika Anda menggunakan bobot yang benar, heteroskedastisitas digantikan oleh homoskedastisitas.

Saya lebih suka pendekatan ini sedikit karena regresi berat memerlukan manipulasi data yang lebih banyak dan kurang intuitif. Selain itu, jika Anda tidak hati-hati, Anda mungkin melewatkan kesempatan untuk spesifikasi model yang lebih bermakna dengan mengubah variabel.

Dalam contoh kami, kita tahu bahwa populasi yang lebih besar terkait dengan variasi yang lebih tinggi. Oleh karena itu, kita perlu memberikan bobot yang lebih kecil pada observasi dengan populasi yang lebih besar. Cara yang umum digunakan adalah menggunakan invers populasi sebagai bobot.

Mengubah Variabel-Dependen

Saya selalu menyelesaikan mengubah variabel-depeden untuk terakhir karena memerlukan manipulasi data yang paling banyak dan membuat hasil sulit diinterpretasikan. Ide dasarnya adalah untuk mengubah data asli Anda menjadi nilai-nilai yang lebih baik agar dapat menghasilkan residu-pedunya yang baik. Jika tidak ada pendekatan lain yang berhasil, cobalah transformasi pada variabel-depeden.

Dalam contoh kami, saya akan merefit model asli dengan menggunakan transformasi Box-Cox pada variabel-depeden. Namun, tampaknya transformasi data tidak menghasilkan homoskedastisitas dalam dataset ini. Saya tidak ingin menggunakan pendekatan ini juga! Kami akan tetap menggunakan model regresi berat.

Perlu diingat bahwa terdapat banyak alasan untuk heteroskedastisitas. Identifikasi penyebab dan menyelesaikan masalah untuk menghasilkan homoskedastisitas dapat memerlukan pengetahuan subjek yang luas. Dalam kebanyakan kasus, tindakan remedial untuk heteroskedastisitas yang parah diperlukan. Namun, jika tujuan utama Anda adalah untuk memprediksi jumlah total variabel-depeden daripada mengestimasi efek khusus variabel-variabel independen, maka mungkin tidak perlu menyelesaikan non-konstan variasi.

Jika Anda belajar regresi dan menyukai pendekatan yang saya gunakan di blog saya, coba baca buku panduan saya "Intuitive Guide to Regression Analysis"! Buku ini tersedia di Amazon dan penjual lainnya.