Membuat Scatter Plot dengan Trend Line dan Variabel Ketiga

Membuat Scatter Plot dengan Trend Line dan Variabel Ketiga

Sastra plot digunakan untuk melihat hubungan prediktif atau korelasi antara variabel-variabel, maka tidak heran jika kita menambahkan garis trend ke dalam plot tersebut yang menunjukkan fitur matematika terbaik ke data. Hal ini dapat memberikan signal tambahan tentang sekuat hubungan antara dua variabel dan apakah ada titik-titik yang tidak biasa yang mempengaruhi perhitungan garis trend.

Variabel Ketiga Kategori

Modifikasi scatter plot yang paling umum adalah menambahkan variabel ketiga. Nilai variabel ketiga dapat diterjemahkan dengan cara mengubah cara penampilan titik. Untuk variabel ketiga yang menunjukkan nilai kategori (seperti wilayah geografis atau gender), encoding yang paling umum adalah melalui warna titik. Dengan memberikan setiap titik warna yang berbeda, maka kita dapat menampilkan kesatuan setiap titik ke dalam grup masing-masing.

Contohnya, warna titik untuk jenis pohon Ferson (kuning) dan Milton (biru) menunjukkan bahwa Ferson secara umum lebih lebar tetapi juga lebih pendek untuk diameter yang sama. Pilihan lain yangkadang-kadang dilihat untuk encoding variabel ketiga adalah melalui bentuk. Namun, dalam beberapa kasus di mana warna tidak dapat digunakan (seperti cetak), maka bentuk mungkin menjadi pilihan terbaik untuk membedakan antara grup.

Variabel Ketiga Nominal

Untuk variabel ketiga yang memiliki nilai nominal, encoding yang umum adalah dengan mengubah ukuran titik. Scatter plot dengan ukuran titik berdasarkan variabel ketiga sebenarnya dikenal sebagai chart bubble. Ukuran titik yang lebih besar menunjukkan nilai yang lebih tinggi.

Selain itu, warna juga dapat digunakan untuk mewakili nilai nominal sebagai alternatif lain. Namun, dalam hal ini kita ingin menggunakan sekuen warna kontinu sehingga warna gelap menunjukkan nilai yang lebih tinggi. Perlu diingat bahwa, untuk baik ukuran dan warna, maka legenda penting untuk interpretasi variabel ketiga karena mata kita kurang dapat membedakan ukuran dan warna dengan mudah.

Menggunakan Anotasi dan Warna

Jika Anda ingin menggunakan scatter plot untuk menunjukkan insights, maka Anda dapat menggunakkan anotasi dan warna untuk menyoroti titik-titik yang berharga. Dengan mendesaturasi titik-titik yang tidak penting, maka titik-titik lainnya akan tampak lebih jelas dan memberikan referensi untuk membandingkan titik-titik lainnya.

Map Scatter

Ketika dua variabel dalam scatter plot adalah koordinat geografis – latitude dan longitude – kita dapat meletakkan titik-titik pada peta untuk mendapatkan map scatter (juga dikenal sebagai dot map). Hal ini dapat sangat berguna ketika konteks geografis berguna untuk menarik kesimpulan tertentu dan dapat digabung dengan encoding variabel ketiga lainnya seperti ukuran titik dan warna.

Contohnya, salah satu contoh yang terkenal dari map scatter adalah peta cholera John Snow tahun 1854, yang menunjukkan bahwa kasus cholera (garis hitam) berpusat di sekitar sebuah sumur air pada Jalan Broad (titik tengah). Original: Wikimedia Commons

Heatmap

Seperti yang telah dikatakan sebelumnya, heatmap dapat menjadi alternatif yang baik untuk scatter plot ketika ada banyak titik data yang perlu dipplot dan kepadatan mereka menyebabkan masalah overplotting. Namun, heatmap juga dapat digunakan dalam cara yang sama untuk menunjukkan hubungan antara variabel ketika salah satu atau kedua variabel tidak terus menerus dan nominal. Jika kita mencoba mendepiktura nilai diskrit dengan scatter plot, maka semua titik dari level yang sama akan berada pada garis lurus.

Heatmap dapat mengatasi masalah overplotting dengan cara pembagiannya ke dalam kotak-kotak hitung.