==============================================================
Menggambar sebuah scatter plot untuk melihat hubungan prediktif atau korrelasi antara dua variabel adalah hal yang umum dilakukan. Namun, menambahkan garis trend ke dalam plot dapat memberikan sinyal tambahan tentang kuatnya hubungan antara kedua variabel dan apakah ada titik-titik tidak biasa yang mempengaruhi penghitungan garis trend.
Variable Ketiga Kategorikal
Modifikasi umum dari scatter plot dasar adalah menambahkan variable ketiga. Nilai variable ketiga dapat di-encode dengan cara mengubah cara penjelasan titik-titik. Untuk variable ketiga yang menunjukkan nilai kategori (seperti wilayah geografis atau jenis kelamin), encoding yang paling umum adalah melalui warna titik. Dengan memberikan setiap titik warna yang unik, kita dapat dengan mudah menunjukkan bagian masing-masing titik ke dalam grup yang sesuai.
Contoh:
Dalam contoh di atas, warna titik digunakan untuk menunjukkan tipe pohon (Fersons dan Milton). Warna tersebut menunjukkan bahwa Fersons secara umum lebih lebar tetapi juga lebih pendek untuk diameter yang sama.
Variable Ketiga Numerik
Untuk variable ketiga yang memiliki nilai numerik, encoding yang umum digunakan adalah dengan mengubah ukuran titik. Scatter plot dengan ukuran titik berdasarkan variable ketiga disebut bubble chart. Ukuran titik yang lebih besar menunjukkan nilai yang lebih tinggi.
Hue as Encoding
Alternatif lain untuk encoding variable ketiga numerik adalah menggunakan warna. Dalam kasus ini, kita ingin menggunakan warna kontinu sehingga warna yang lebih gelap menunjukkan nilai yang lebih tinggi. Perlu diingat bahwa untuk interpretasi variable ketiga, legenda sangat penting, karena mata kita kurang dapat melihat ukuran dan warna sebagai mudahnya posisi.
Highlight dengan Annotation dan Warna
Jika Anda ingin menggunakan scatter plot untuk menunjukkan insigh, maka Anda dapat menggunakan annotation dan warna untuk memfokuskan pada titik-titik yang berharga. Dengan mengurangi titik-titik yang tidak penting, kita dapat membuat titik-titik lainnya lebih mudah dilihat.
Scatter Map
Jika dua variable dalam scatter plot adalah koordinat geografis (lintang dan bujur), maka kita dapat menempatkan titik-titik pada peta untuk mendapatkan scatter map. Fungsi ini sangat bermanfaat jika konteks geografis penting untuk menghasilkan insigh yang signifikan.
Contoh:
Contoh klasik dari scatter map adalah peta wabah cholera John Snow tahun 1854, menunjukkan bahwa kasus wabah (garis-garis hitam) terkonsentrasi di sekitar sumur air di jalan Broad Street (titik pusat).
Heatmap
Sebagai catatan, heatmap dapat menjadi alternatif yang baik untuk scatter plot ketika ada banyak titik data yang perlu dipaparkan dan kepadatan titik-titik tersebut menyebabkan masalah overlapping. Namun, heatmap juga dapat digunakan dalam cara yang sama untuk menunjukkan hubungan antara variable ketika salah satu atau kedua variabel bukan kontinu dan numerik. Jika kita mencoba menunjukkan nilai discrete dengan scatter plot, maka semua titik level yang sama akan terlihat sebagai garis lurus.
Connected Scatter Plot
Jika variable ketiga yang ingin ditambahkan ke dalam scatter plot menunjukkan timestamps, maka salah satu jenis chart yang dapat dipilih adalah connected scatter plot. Dalam hal ini, kita menggunakan segmen garis untuk menghubungkan observasi-observasi searah. Fungsi ini membuatnya lebih mudah dilihat bagaimana hubungan antara dua variabel tidak hanya terlihat sebagai hubungan, tapi juga berubah seiring waktu.
Tol Visualisasi
Scatter plot adalah chart dasar yang seharusnya dapat di-create oleh semua tools visualisasi dan solusi. Penghitungan garis trend dasar juga sangat umum digunakan, serta penggunaan warna titik berdasarkan level variable ketiga kategori. Namun, pilihan lain seperti garis trend tidak linear dan encoding nilai variable ketiga dengan bentuk, belum banyak ditemukan. Bahkan tanpa opsi-opsi tersebut, scatter plot masih dapat membantu dalam analisis data.