Dalam membuat scatter plot untuk menemukan hubungan prediktif atau korelasi antara variabel, biasanya ditambahkan garis trend yang menunjukkan fitur matematika terbaik ke data. Hal ini dapat memberikan signal tambahan tentang seberapa kuat hubungan antara dua variabel, serta apakah ada titik-titik yang tidak lazim yang mempengaruhi penghitungan garis trend.
Variabel Ketiga Kategori
Modifikasi umum dari scatter plot dasar adalah menambahkan variabel ketiga. Nilai variabel ketiga dapat di-encode dengan cara mengubah cara penulisan titik. Untuk variabel ketiga yang menunjukkan nilai kategori (seperti wilayah geografis atau gender), encoding paling umum adalah melalui warna titik. Memberikan setiap titik warna unik membuatnya mudah menampilkan anggota masing-masing titik ke dalam grup masing-masing.
Contoh di atas menunjukkan bahwa Fersons (kuning) secara umum lebih lebar daripada Miltons (biru), namun juga lebih pendek untuk diameter yang sama. Salah satu opsi encoding lainnya untuk variabel ketiga kategori adalah melalui bentuk. Potensi masalah dengan menggunakan bentuk adalah bahwa bentuk-bentuk tersebut dapat memiliki ukuran dan luas permukaan yang berbeda, sehingga dapat mempengaruhi bagaimana grup masing-masing ditafsirkan. Namun, dalam beberapa kasus di mana warna tidak dapat digunakan (seperti cetak), bentuk mungkin menjadi pilihan terbaik untuk membedakan antara grup.
Variabel Ketiga Numerik
Untuk variabel ketiga yang memiliki nilai numerik, encoding paling umum datang dari mengubah ukuran titik. Scatter plot dengan ukuran titik berdasarkan variabel ketiga sebenarnya dikenal sebagai bubble chart. Titik-titik besar menunjukkan nilai lebih tinggi. Diskusi lebih lanjut tentang bagaimana chart bubble harus dibuat dapat dibaca dalam artikelnya sendiri.
Warna juga dapat digunakan untuk menggambarkan nilai numerik sebagai alternatif lain. Sebagai gantinya, kita ingin menggunakan urutan warna kontinu sehingga, contohnya, warna gelap menunjukkan nilai lebih tinggi. Perlu diingat bahwa, dalam menggunakan ukuran dan warna, legendah sangat penting untuk interpretasi variabel ketiga, karena mata kita tidak dapat dengan mudah membedakan ukuran dan warna.
Pemilihan Titik yang Spesial
Jika Anda ingin menggunakan scatter plot untuk menampilkan insights, maka bagus jika Anda ingin menonaktifkan titik-titik yang tidak penting sehingga titik-titik lainnya terlihat lebih jelas, serta memberikan referensi untuk membandingkan titik-titik lainnya dengan titik-titik yang telah ditonaktifkan.
Scatter Map
Ketika dua variabel dalam scatter plot adalah koordinat geografis – lintang dan bujur – kita dapat menempelkan titik-titik pada peta untuk mendapatkan scatter map (aka dot map). Hal ini dapat bermanfaat ketika konteks geografis sangat berguna untuk menarik insights khusus dan dapat digabung dengan encoding variabel ketiga lainnya seperti ukuran titik dan warna.
Contoh yang terkenal dari scatter map adalah peta penyebaran penyakit koleranya John Snow tahun 1854, menunjukkan bahwa kasus-kasus kolerah (garis-garis hitam) berpusat di sekitar sumur air yang terletak di Jalan Broad (titik pusat). Asal: Wikimedia Commons
Heatmap
Sebagaimana disebutkan di atas, heatmap dapat menjadi alternatif bagus untuk scatter plot ketika ada banyak titik data yang perlu diplot dan kepadatan mereka menyebabkan masalah overplotting. Namun, heatmap juga dapat digunakan dalam cara yang serupa untuk menunjukkan hubungan antara variabel ketika salah satu atau kedua variabel bukanlah numerik dan terus-menerus. Jika kita mencoba menggambarkan nilai diskrit dengan scatter plot, semua titik dari level yang sama akan berada pada garis lurus. Heatmap dapat menyelesaikan masalah overplotting melalui pengumpulan nilai ke dalam kotak-kotak hitung.
Scatter Plot Terhubung
Jika variabel ketiga kita adalah waktu, maka scatter plot terhubung dapat digunakan untuk menunjukkan perubahan nilai yang terjadi seiring waktu. Contoh di atas menunjukkan bagaimana nilai-nilai dapat berubah seiring waktu dan memberikan insights tentang pola-pola yang terjadi.
Kesimpulan
Dalam artikel ini, kita telah membahas cara membuat scatter plot dengan tren dan menambahkan variabel ketiga. Kita juga telah melihat beberapa contoh penggunaan scatter plot dalam berbagai kasus, termasuk scatter map dan heatmap. Dengan menggunakan scatter plot yang tepat, kita dapat mendapatkan insights yang berguna dan menyelesaikan masalah-masalah yang terjadi dalam berbagai bidang.