Tren Line dan Modifikasi pada Scatter Plot

Tren Line dan Modifikasi pada Scatter Plot

Dalam analisis predictive atau relasional antar variable menggunakan scatter plot, biasanya ditambahkan garis trend untuk menunjukkan kemiripan matematis terhadap data. Hal ini dapat memberikan sinyal tambahan tentang kuatnya hubungan antara dua variable dan apakah ada titik yang tidak biasa yang mempengaruhi penghitungan garis trend.

Variabel Ketiga Kategori

Modifikasi lain dari scatter plot dasar adalah penambahan variabel ketiga. Nilai variabel ketiga dapat ditunjukkan dengan cara mengubah cara plotting point. Untuk variabel ketiga kategori (seperti region geografis atau gender), encoding yang paling umum adalah melalui warna point. Dengan memberikan setiap titik warna yang unik, membuatnya mudah untuk menunjukkan anggota masing-masing titik ke dalam grup tertentu.

Contoh: Warna titik Fersons (kuning) umumnya lebih lebar daripada Milton (biru), namun juga lebih pendek untuk diameter yang sama. Opsi lain yang kadang-kadang dilihat untuk encoding variabel ketiga kategori adalah melalui bentuk. Namun, perlu diingat bahwa berbagai bentuk dapat memiliki ukuran dan luas permukaan yang berbeda, yang dapat mempengaruhi bagaimana grup dipersepsi.

Gambar di atas telah diskalakan untuk menggunakan jumlah warna yang sama.

Variabel Ketiga Nominal

Untuk variabel ketiga yang memiliki nilai nominal, encoding yang paling umum adalah melalui ukuran point. Scatter plot dengan ukuran point berbasis pada variabel ketiga sebenarnya dikenali sebagai bubble chart. Titik lebih besar menunjukkan nilai lebih tinggi. Diskusi lebih lanjut tentang bagaimana bubble charts seharusnya dibuat dapat dibaca dalam artikel sendiri.

Hue juga dapat digunakan untuk merepresentasikan nilai nominal sebagai alternatif lain. Dalam hal ini, kita ingin menggunakan rentangan warna yang kontinu, sehingga contoh, warna gelap menunjukkan nilai lebih tinggi. Perlu diingat bahwa, baik ukuran maupun warna, legenda penting untuk interpretasi variabel ketiga, sejak mata kita tidak dapat dengan mudah membedakan ukuran dan warna.

Highlight menggunakan Annotation dan Warna

Jika Anda ingin menggunakan scatter plot untuk menampilkan insigh, maka dapat baik jika Anda menggunakan annotation dan warna untuk menyoroti titik yang berminat. Men-desaturasi titik yang tidak penting membuat titik lainnya menjadi lebih terlihat, serta memberikan referensi untuk membandingkan titik lainnya dengan titik lain.

Scatter Map

Ketika dua variable dalam scatter plot adalah koordinat geografis – latitude dan longitude – maka kita dapat mengoverlay point pada peta untuk mendapatkan scatter map (aka dot map). Hal ini dapat bermanfaat ketika konteks geografis berguna untuk menarik kesimpulan tertentu, serta dapat dikombinasikan dengan encoding variabel ketiga lainnya seperti ukuran dan warna.

Contoh terkenal dari scatter map adalah peta kejadian kolera John Snow tahun 1854, yang menunjukkan bahwa kasus kolera (baris hitam) terkonsentrasi di sekitar sumur air tertentu pada jalan Broad Street (titik tengah). Sumber: Wikimedia Commons

Heatmap

Sebagaimana disebutkan di atas, heatmap dapat menjadi alternatif yang baik untuk scatter plot ketika ada banyak titik data yang perlu dipotting dan densitasnya menyebabkan masalah overplotting. Namun, heatmap juga dapat digunakan dalam cara yang sama untuk menunjukkan relasional antar variable ketika salah satu atau kedua variable tidak kontinu dan nominal. Jika kita mencoba menggambarkan nilai diskrit dengan scatter plot, semua titik level yang sama akan berada di garis lurus. Heatmaps dapat mengatasi overplotting melalui pembagian nilainya ke dalam kotak hitung.

Connected Scatter Plot

Jika variabel ketiga yang ingin ditambahkan pada scatter plot menunjukkan timestamps, maka kita dapat memilih jenis chart yang terhubung yaitu connected scatter plot. Sebagai gantinya, kita menggunakan segment garis untuk menghubungkan pengamatan-pengamatan, sehingga menjadi lebih mudah untuk melihat bagaimana dua variable utama tidak hanya berelasi antara satu sama lain, namun juga bagaimana relasional tersebut berubah seiring waktu.

Konklusi

Dalam analisis predictive atau relasional antar variable, scatter plot dapat digunakan sebagai alat yang penting untuk menunjukkan relasional antara dua variable. Dengan modifikasi yang tepat, seperti tren line dan encoding variabel ketiga, kita dapat memperoleh insigh yang lebih baik tentang hubungan antara dua variable.