Analisis Data dengan Scatter Plot dan Scatter Plot Matrix

Analisis Data dengan Scatter Plot dan Scatter Plot Matrix

Dalam analisis data, salah satu alat yang paling penting adalah scatter plot. Scatter plot adalah grafik dua dimensi yang digunakan untuk memvisualkan hubungan antara dua variabel kontinu. Dalam beberapa kasus, kita juga perlu menggunakan scatter plot matrix untuk menemukan pola-pola yang tidak terlihat dengan cara individual.

Contoh 1: Specification Limits

Misalnya, seorang pembeli untuk kantin sekolah harus membeli daging dengan minimal 300 gram garam (sodium), target 450 gram, dan maksimum 600 gram. Dengan menggunakan scatter plot, kita dapat menemukan jenis daging yang tidak sesuai dengan spesifikasi di atas.

Seperti ditunjukkan dalam Gambar 12, dengan garis-garis tambahan, sekarang menjadi mudah untuk melihat bahwa ada empat jenis daging yang tidak cocok untuk kantin sekolah. Label dan warna untuk titik-titik ini, seperti ditunjukkan dalam Gambar 13, dapat ditambahkan untuk memberikan detail tambahan. Pembeli dapat berbagi grafik ini untuk menunjukkan mengapa beberapa daging tidak menjadi pilihan.

Contoh 2: Scatter Plot Matrix

Scatter plot matrix adalah alat yang digunakan untuk menemukan hubungan antara beberapa variabel pada saat bersamaan. Setelah menerapkan semua kombinasi dua-variabel, matrix dapat menunjukkan relasi antara variabel untuk menghighlight relasi yang paling penting. Matrix juga dapat mendeteksi outlier dalam scatter plot.

Gambar 14 menunjukkan scatter plot matrix untuk data tentang berbagai model mobil. Scatter plots menggunakan warna dan marker yang sama dengan Gambar 9-11. Scatter plot pertama di bagian kiri menunjukkan hubungan antara Berat dan Jari-jari Putaran.

Matrix menunjukkan bahwa semua kombinasi dua-variabel memiliki relasi naik.

Contoh 3: Customization

Dengan menggunakan JMP, kita dapat menambahkan informasi tambahan ke scatter plot matrix, termasuk histogram untuk setiap variabel di diagonal. Kita juga dapat menggantikan scatter plots di atas segitiga dengan korrelasi antara setiap pasangan variabel. Scatter plot matrix dalam Gambar 15 menunjukkan customisasi ini. Legend di sebelah kanan memiliki heatmap untuk korrelasi, dengan warna merah tua yang menandai relasi positif kuat antara kombinasi dua-variabel.

Contoh 4: Outlier Detection

Dengan menggunakan JMP, kita juga dapat menambahkan informasi tambahan ke matrix, seperti ellipses ketebalan untuk setiap scatter plot untuk melihat outlier dalam beberapa dimensi. Gambar 16 menunjukkan bagaimana memilih outlier di satu scatter plot dapat menghighlightnya di semua scatter plots lain.

Data Types

Data dapat dikelompokkan menjadi dua tipe: kontinu dan kategori atau nominal.

  • Data kontinu cocok untuk scatter plots, karena data ini diukur pada skala dengan banyak nilai yang mungkin. Contoh data kontinu adalah:
  • Umur
  • Tekanan darah
  • Berat
  • Suhu
  • Kecepatan
  • Data kategori atau nominal tidak cocok untuk scatter plots, karena data ini diukur pada skala dengan nilai yang spesifik. Gunakan instead bar charts.

Dengan menggunakan data kategori, sample dibagi menjadi kelompok dan tanggapan mungkin memiliki urutan tertentu. Contoh data kategori adalah survei di mana Anda diminta memberikan pendapat Anda pada skala dari "Sangat Tidak Setuju" hingga "Sangat Setuju".

Untuk data nominal, sample juga dibagi menjadi kelompok tapi tidak ada urutan tertentu. Contoh data nominal adalah negara asal. Kita dapat menggunakan singkatan negara atau mengkodekan nama negara. Dalam beide kasus, kita hanya memberikan nama pada grup-data.

Kita dapat menggunakan variabel kategori atau nominal untuk mempersonalis scatter plot. Kita dapat menugaskan warna atau marker yang berbeda untuk tingkat-tingkat variabel ini.