Dalam analisis data, terkadang kita menemui nilai yang berada jauh di luar rentang normal. Nilai-niali tersebut disebut outlier. Dalam artikel ini, kita akan membahas tentang pengertian outlier, jenis-jenisnya, serta cara mengatasi outlier.
1. Univariate Outlier
Univariate outlier adalah nilai abnormal yang berada di luar rentang normal dalam satu variabel. Contohnya, seseorang dengan berat badan 370 kg dianggap sebagai global outlier karena berat badan tersebut berada jauh di luar rentang normal.
2. Contextual Outlier
Contextual outlier adalah nilai abnormal yang berada dalam konteks tertentu, tetapi tidak secara keseluruhan. Misalnya, suhu udara 30 derajat celcius di musim panas mungkin dianggap normal. Namun, jika terjadi pada musim dingin, nilai ini bisa dianggap sebagai contextual outlier. Dalam kasus ini, 'musim' adalah konteks yang membuat suhu tersebut menjadi outlier.
3. Collective Outlier
Collective outlier adalah sekumpulan nilai yang secara kolektif dianggap abnormal, meski masing-masing nilai mungkin tidak dianggap outlier. Perbedaan ini mungkin tidak terlihat ketika melihat nilai individual. Namun, jika dianalisis secara keseluruhan, kelompok data tersebut dapat dianggap sebagai outlier.
Contoh Data Outlier
Berikut adalah ilustrasi adanya data outlier:
Analyst sedang mengumpulkan data suhu harian di kota Jakarta selama satu bulan. Mayoritas suhu berada di antara 25-30 derajat celcius. Namun, pada suatu hari, suhu mencapai 40 derajat. Suhu tersebut bisa dianggap sebagai outlier karena berada di luar pola suhu yang umum terjadi.
Contoh lainnya adalah dalam data penjualan toko. Penjualan harian rata-rata toko X adalah 500 unit. Pada satu hari tertentu, penjualan mencapai 5.000 unit. Nilai 5.000 unit ini bisa dianggap sebagai outlier karena jauh melebihi penjualan harian biasa.
Cara Mencari Outlier
Beberapa cara untuk mencari outlier antara lain:
- Box plot: yaitu alat visualisasi yang bisa menampilkan outlier berupa titik atau bintang yang berada di luar 'kotak' utama plot.
- Z-Score: yaitu ukuran statistik yang menunjukkan seberapa jauh suatu nilai dari rata-rata kumpulan data. Nilai dengan Z-Score sangat tinggi atau sangat rendah dapat dianggap sebagai outlier.
- Interquartile Range (IQR): IQR adalah rentang antara kuartil pertama dan ketiga dari kumpulan data. Nilai yang berada di luar 1,5 kali IQR dari kuartil pertama atau ketiga dapat dianggap sebagai outlier.
Mengatasi Outlier
Berikut beberapa cara untuk mengatasi outlier:
- Mengidentifikasi outlier: Langkah pertama dalam mengatasi outlier adalah identifikasi. Analyst bisa menggunakan metode visualisasi seperti boxplot atau scatter plot untuk memvisualisasikan data dan melihat apakah ada data yang jauh berbeda dari yang lain.
- Transformasi data: Dalam beberapa kasus, transformasi data bisa digunakan untuk mengurangi efek outlier. Misalnya, transformasi logaritmik dapat diterapkan untuk data yang memiliki skewness atau kecondongan tinggi.
- Menghapus outlier: Dalam beberapa situasi, penghapusan outlier merupakan pilihan paling tepat. Jika outlier merupakan hasil dari kesalahan input atau noise, penghapusan outlier akan meningkatkan akurasi analisis data.
- Imputasi: Imputasi adalah proses penggantian nilai outlier dengan nilai lain. Nilai pengganti ini bisa berupa mean, median, atau modus dari kumpulan data.
Dalam beberapa kasus, metode imputasi membantu mengurangi pengaruh outlier, namun harus digunakan dengan hati-hati karena bisa mengubah distribusi data.