Dalam analisis prediktif atau hubungan korrelasional antara variabel, scatter plot biasanya digunakan dengan garis trend yang menunjukkan fitur matematika terbaik pada data. Garis ini dapat memberikan sinyal tambahan tentang kekuatan hubungan antara dua variabel dan apakah ada titik-titik yang tidak biasa mempengaruhi penghitungan garis trend.
Variasi Scatter Plot: Tambahkan Variable Ketiga
Modifikasi umum dari scatter plot dasar adalah penambahan variable ketiga. Nilai variable ketiga dapat di-encode dengan cara mengubah cara plot point-nya. Untuk variable ketiga yang menunjukkan nilai kategorikal (seperti wilayah geografis atau jenis kelamin), encoding paling umum adalah menggunakan warna point. Dengan memberikan warna unik untuk masing-masing titik, mudah menampilkan keanggotaan setiap titik terhadap grup yang sesuai.
Contoh: Pemrograman milik Ferson (kuning) biasanya lebih lebar daripada Milton (biru), tapi juga lebih pendek untuk diameter yang sama. Salah satu opsi encoding lainnya adalah shape. Namun, perlu diingat bahwa bentuk dapat memiliki ukuran dan luas permukaan yang berbeda, yang dapat mempengaruhi bagaimana grup dipahami.
Variasi Scatter Plot: Tambahkan Variable Numerik
Untuk variable ketiga yang memiliki nilai numerik, encoding paling umum adalah mengubah ukuran point. Scatter plot dengan ukuran point yang berbasis pada variable ketiga juga dikenal sebagai bubble chart. Ukuran titik yang lebih besar menunjukkan nilai yang lebih tinggi.
Alternatif lain untuk encoding variable numerik adalah menggunakan warna. Dalam hal ini, kita ingin menggunakan sequence warna kontinu sehingga warna gelap menunjukkan nilai yang lebih tinggi.
Highlight dengan Annotation dan Warna
Jika Anda ingin menggunakan scatter plot untuk presentasi insigh, dapat bermanfaat untuk mempertahankan titik-titik yang berharga melalui penggunaan annotation dan warna. Membuat point-point lainnya tidak penting menjadi lembut membuat titik-titik berharga lainnya menjadi lebih kelihatan.
Scatter Map
Jika variable-variabel dalam scatter plot adalah koordinat geografis – latitude dan longitude – kita dapat menempatkan titik-titik di atas peta untuk mendapatkan scatter map (juga dikenal sebagai dot map). Hal ini dapat sangat bermanfaat jika konteks geografisnya berguna untuk menarik kesimpulan.
Contoh: Peta wabah kolera 1854 John Snow, menunjukkan bahwa kasus-kasus wabah kolera (bar-bar hitam) terfokus di sekitaran sumur air pada Jalan Broad (titik sentral). Asal: Wikimedia Commons
Heatmap
Seperti yang telah disebutkan sebelumnya, heatmap dapat menjadi alternatif bagus untuk scatter plot ketika ada banyak titik data yang perlu dipplot dan kepadatan mereka mengakibatkan masalah overplotting. Namun, heatmap juga dapat digunakan dalam cara yang serupa untuk menunjukkan hubungan antara variabel ketika salah satu atau kedua variabel bukan numerik dan kontinu. Jika kita mencoba menggambarkan nilai diskrit dengan scatter plot, semua titik dari level yang sama akan berada di garis lurus.
Connected Scatter Plot
Jika variable ketiga yang ingin ditambahkan ke scatter plot menunjukkan timestamps, maka salah satu tipe chart yang dapat dipilih adalah connected scatter plot. Dalam hal ini, kita menggunakan garis-garis untuk menghubungkan observasi-observasi dalam urutan waktu. Hal ini dapat memudahkan penjelasan bagaimana dua variabel utama tidak hanya berhubungan, tapi juga bagaimana hubungan tersebut berubah seiring waktu.
Jika sumbu horizontal juga menunjukkan timestamp, maka semua garis-garis akan konsisten menghubungkan titik-titik dari kiri ke kanan, dan kita memiliki chart dasar line chart.
Tools Visualisasi
Scatter plot adalah tipe chart dasar yang seharusnya dapat dibuat oleh setiap tool visualisasi atau solusi. Penghitungan garis trend linear dasar juga umum sebagai encoding point berdasarkan level variable ketiga kategorikal. Opsi-opsi lain, seperti garis trend non-linear dan encoding variable ketiga dengan shape, tidak se umum ditemukan.
Namun, scatter plot adalah salah satu tipe chart yang paling populer digunakan dalam analisis data untuk menunjukkan hubungan antara variabel. Dengan menggunakan variasi-variasi scatter plot di atas, Anda dapat meningkatkan kemampuan visualisasi Anda dan memahami lebih baik tentang data Anda.