Dalam analisis data, scatter plot adalah salah satu alat visualisasi paling fundamental yang digunakan untuk memahami hubungan prediktif atau korelasi antara dua variabel numerik. Scatter plot membantu kita menemukan pola dan struktur dalam data, serta memberikan signal tambahan tentang sekuence hubungan antara dua variabel.
Trend Line
Trend line adalah salah satu fitur yang paling umum ditemukan pada scatter plot. Trend line ini menunjukkan kemiripan matematis terbaik dengan data yang digunakan. Dengan demikian, trend line dapat memberikan signal tambahan tentang kuatnya hubungan antara dua variabel, serta membantu kita memahami apakah ada titik-titik aneh yang berpengaruh pada komputasi trend line.
Categorical Third Variable
Modifikasi lain dari scatter plot dasar adalah penambahan variable ketiga. Values of the third variable dapat diterjemahkan dengan cara mengubah cara plotting point. Jika variable ketiga menunjukkan nilai kategori (seperti wilayah geografis atau gender), encoding yang paling umum digunakan adalah melalui warna titik. Dengan demikian, setiap titik dapat diberikan warna yang unik dan memungkinkan kita menunjukkan anggota masing-masing titik.
Contoh: Pemakaian warna untuk menggambarkan jenis pohon (Fersons, yellow, dan Milton, blue) menunjukkan bahwa Fersons umumnya lebih lebar daripada Milton, tetapi juga lebih pendek untuk diameter yang sama. Opisi lain yang terkadang ditemukan untuk encoding variable ketiga adalah melalui bentuk. Namun, dalam beberapa kasus di mana warna tidak dapat digunakan (seperti cetak), bentuk mungkin menjadi pilihan terbaik untuk membedakan antara grup.
Numeric Third Variable
Untuk variable ketiga yang memiliki nilai numerik, encoding yang paling umum digunakan adalah melalui ukuran titik. Scatter plot dengan ukuran titik berdasarkan variable ketiga sebenarnya dikenal sebagai bubble chart. Ukuran titik yang lebih besar menunjukkan nilai yang lebih tinggi.
Selain itu, warna juga dapat digunakan untuk menggambarkan nilai numerik sebagai alternatif lain. Sebaliknya dengan menggunakan warna yang unik untuk titik seperti dalam kasus kategori, kita ingin menggunakan sekuen warna kontinu, sehingga warna gelap menunjukkan nilai yang lebih tinggi.
Highlight using annotations and color
Jika Anda ingin menggunakan scatter plot untuk menampilkan insights, maka dapat membantu dengan menggunakan annotasi dan warna. Menonaktifkan titik-titik yang tidak penting membuat titik-titik lainnya menjadi lebih terlihat, serta memberikan rujukan untuk membandingkan titik-titik lainnya.
Scatter Map
Jika dua variable dalam scatter plot adalah koordinat geografis (latitude dan longitude), maka kita dapat menempatkan titik-titik tersebut pada peta untuk mendapatkan scatter map (aka dot map). Hal ini dapat sangat membantu jika konteks geografis sangat penting untuk menggambarkan insights yang spesifik.
Contoh terkenal dari scatter map adalah peta outbreak cholera 1854 oleh John Snow, menunjukkan bahwa kasus-kasus kolera (bar-bar hitam) berpusat di sekitar sebuah sumur air tertentu pada Jalan Broad (dot tengah). Sumber: Wikimedia Commons
Heatmap
Sebagai catatan di atas, heatmap dapat menjadi alternatif yang baik untuk scatter plot ketika ada banyak titik data yang perlu dplot dan densitasnya menyebabkan masalah overplotting. Namun, heatmap juga dapat digunakan dalam cara yang serupa untuk menunjukkan hubungan antara variabel jika salah satu atau kedua variabel tidak kontinu dan numerik.
Jika kita mencoba menggambarkan nilai discrete dengan scatter plot, maka semua titik pada level yang sama akan berada dalam garis lurus. Heatmap dapat mengatasi masalah overplotting melalui binning nilai menjadi kotak-kotak hitungan.
Connected Scatter Plot
Jika variable ketiga yang ingin kita tambahkan ke scatter plot menunjukkan timestamp, maka salah satu jenis chart yang kita pilih adalah connected scatter plot. Sebaliknya dengan mengubah bentuk titik untuk menunjukkan tanggal, kita menggunakan garis-garis yang terhubung untuk menghubungkan pengamatan-pengamatan.
Jika sumbu horizontal juga menunjukkan timestamp, maka connected scatter plot dapat membantu kita memahami pola-pola dan struktur dalam data.
#Dalam artikel ini, kita telah membahas tentang scatter plot sebagai alat visualisasi fundamental yang digunakan untuk memahami hubungan prediktif atau korelasi antara dua variabel numerik. Kita juga telah membahas beberapa fitur lainnya, seperti trend line, categorical third variable, numeric third variable, highlight using annotations and color, scatter map, heatmap, dan connected scatter plot.
Dengan demikian, scatter plot dapat menjadi alat yang sangat bermanfaat dalam analisis data dan membantu kita memahami pola-pola dan struktur dalam data.