Dalam ilmu statistik dan komputasi, pengolahan data multivari adalah proses menganalisis dan visualisasi data yang berisi dua atau lebih variabel per individu. Dalam artikel ini, kita akan membahas tentang scatterplot, yaitu salah satu alat visualisasi yang paling umum digunakan dalam pengolahan data multivari.
Scatter Plot
Scatter plot adalah sebuah grafik dua dimensi yang digunakan untuk menganalisis hubungan antara dua variabel. Grafik ini terdiri atas titik-titik yang merepresentasikan individu-individu, dengan koordinat masing-masing titik adalah nilai dari dua variabel tersebut.
Outlier
Pada dasarnya, outlier adalah data point yang tidak sesuai dengan pola umum data, atau yang jauh lebih jauh dari data-data lainnya. Dalam scatter plot, outlier akan tampak sebagai titik-titik yang berbeda dari pola umum data.
Homoscedasticity dan Heteroscedasticity
Dalam analisis statistik, dua konsep yang penting adalah homoscedasticity dan heteroscedasticity. Homoscedasticity berarti bahwa scatter di vertikal slice-slice yang berbeda melalui grafik scatter plot relatif sama, terlepas dari posisi slice-nya. Sementara itu, heteroscedasticity berarti bahwa scatter di vertikal slice-slice yang berbeda melalui grafik scatter plot berbeda-beda, bergantung pada posisi slice-nya.
Scatter Plot Matrix
Sebuah scatter plot matrix adalah sebuah matriks (atau grid) dari grafik scatter plot, dengan masing-masing grafik di dalam grid tersebut mencatatkan hubungan antara kombinasi-kombinasi variabel. Matriks ini sering digunakan dalam analisis data multivari untuk menemukan hubungan-hubungan yang tak terlihat.
Contoh Penggunaan
Berikut beberapa contoh penggunaan scatter plot matrix:
- Analisis Data Awal: Scatter plot matrix dapat digunakan sebagai alat analisis data awal untuk menemukan pola-pola dan trend-trend dalam data.
- Analisis Korelasi: Matriks ini dapat digunakan untuk menganalisis korelasi antara variabel-variabel, dengan melihat apakah hubungan antara variabel-variabel tersebut linear atau tidak linear.
- Analisis Multivari: Scatter plot matrix dapat digunakan untuk menemukan hubungan-hubungan antara beberapa variabel dalam data, yang dapat berguna jika memiliki banyak variabel dan ingin mengetahui bagaimana mereka berhubungan dengan satu sama lain.
- Pemilihan Fitur: Matriks ini dapat digunakan untuk memilih fitur-fitur terpenting untuk model prediktif, dengan melihat apakah variabel-variabel tersebut terkait erat dengan variabel target atau tidak.
- Deteksi Outlier: Scatter plot matrix dapat digunakan untuk mendeteksi outlier dalam data, dengan melihat titik-titik yang berbeda dari pola umum data.
Kesimpulan
Dalam kesimpulan, matriks scatter plot adalah alat yang sangat powerful untuk menemukan hubungan-hubungan antara beberapa variabel dalam data dan dapat digunakan untuk beberapa tugas analisis data, mulai dari analisis data awal hingga pemilihan fitur dan deteksi outlier.