Dalam menguraikan hubungan prediktif atau korrelasi antara dua variabel menggunakan scatter plot, menambahkan garis trend ke plot dapat memberikan sinyal tambahan tentang kuatnya hubungan antara dua variabel serta apakah ada titik-titik yang tidak biasa yang mempengaruhi perhitungan garis trend.
Variabel Ketiga Kategori
Modifikasi umum dari scatter plot dasar adalah penambahan variabel ketiga. Nilai variabel ketiga dapat dikodekan dengan mengubah cara penampilan titik. Untuk variabel ketiga yang menunjukkan nilai kategori (seperti wilayah geografis atau jenis kelamin), encoding paling umum adalah melalui warna titik. Dengan memberikan setiap titik warna yang unik, maka mudah untuk menampilkan anggota masing-masing titik ke dalam grup.
Contoh di atas menunjukkan bahwa Ferson (kuning) secara umum lebih lebar daripada Milton (biru), namun juga lebih pendek untuk diameter yang sama. Pilihan lain yang kadang-kadang dilihat untuk encoding variabel ketiga adalah melalui bentuk. Namun, perlu diingat bahwa berbagai bentuk dapat memiliki ukuran dan luas permukaan yang berbeda, yang dapat mempengaruhi bagaimana grup dipersepsi.
Variabel Ketiga Numerik
Untuk variabel ketiga yang memiliki nilai numerik, encoding paling umum datang dari mengubah ukuran titik. Scatter plot dengan ukuran titik berdasarkan variabel ketiga secara efektif disebut bubble chart. Titik yang lebih besar menunjukkan nilai yang lebih tinggi. Diskusi lebih lanjut tentang bagaimana cara membuat bubble chart dapat dibaca dalam artikelnya sendiri.
Warna juga dapat digunakan untuk merepresentasikan nilai numerik sebagai alternatif lain. Daripada menggunakan warna berbeda untuk titik seperti pada kasus kategori, kita ingin menggunakan rentang warna kontinu, sehingga contoh, warna gelap menunjukkan nilai yang lebih tinggi. Perlu diingat bahwa, baik ukuran dan warna, legenda sangat penting untuk interpretasi variabel ketiga, karena mata kita kurang mampu mendeteksi ukuran dan warna dengan mudah seperti posisi.
Menggunakan Anotasi dan Warna
Jika Anda ingin menggunakan scatter plot untuk menampilkan kesimpulan, maka dapat baik untuk mempertegas titik-titik yang menarik melalui penggunaan anotasi dan warna. Meninggalkan titik-titik yang tidak penting membuat titik-titik lainnya menjadi lebih jelas, dan memberikan rujukan untuk mengompari titik-titik lainnya.
Scatter Map
Ketika dua variabel dalam scatter plot adalah koordinat geografis – lintang dan bujur – kita dapat menempelkan titik-titik pada peta untuk mendapatkan scatter map (juga disebut dot map). Ini dapat berguna ketika konteks geografis penting untuk menggambar kesimpulan, dan dapat digabung dengan encoding variabel ketiga lainnya seperti ukuran titik dan warna.
Contoh terkenal dari scatter map adalah peta kejadian cholera tahun 1854 oleh John Snow, yang menunjukkan bahwa kasus cholera (baris hitam) terkonsentrasi di sekitar sebuah sumur air di Jalan Broad Street (titik tengah). Sumber: Wikimedia Commons
Heatmap
Sebagaimana diperlihatkan di atas, heatmap dapat menjadi alternatif yang baik untuk scatter plot ketika terdapat banyak titik data yang perlu dipaparkan dan densitasnya menyebabkan masalah overplotting. Namun, heatmap juga dapat digunakan dalam cara yang sama untuk menunjukkan hubungan antara variabel ketika salah satu atau kedua variabel tidak berupa nilai numerik. Jika kita mencoba menggambarkan nilai discrete dengan scatter plot, maka semua titik dari tingkat yang sama akan terlihat sebagai garis lurus. Heatmap dapat mengatasi masalah overplotting melalui penggabungan nilai ke dalam kotak-kotak hitam.
Scatter Plot Connected
Jika variabel ketiga yang ingin ditambahkan ke scatter plot menunjukkan timestamps, maka salah satu jenis grafik yang kita dapat pilih adalah scatter plot connected. Sebagai ganti mengubah bentuk titik untuk menunjukkan tanggal, kita menggunakan garis-garis yang terhubung. Scatter plot ini secara efektif disebut line chart.
Dalam artikel ini, kita telah mempelajari cara mengembangkan scatter plot dengan trend line dan variabel ketiga. Kita juga telah melihat bagaimana encoding variabel ketiga dapat membantu dalam meningkatkan keefektifan scatter plot. Dengan demikian, kita dapat menggunakan scatter plot sebagai alat bantu yang efektif untuk menganalisis data dan menampilkan kesimpulan.