======================================================
Dalam menganalisis hubungan prediktif atau korrelasional antara variabel, scatter plot adalah salah satu cara yang paling umum digunakan. Namun, jika kita ingin memahami lebih lanjut tentang hubungan tersebut, maka menambahkan garis trend ke dalam plot dapat membantu.
Garis trend ini dapat memberikan sinyal tambahan mengenai seberapa kuat hubungan antara dua variabel dan apakah terdapat titik-titik yang tidak biasa yang mempengaruhi penghitungan garis trend. Dengan demikian, kita dapat lebih mudah mengetahui bagaimana data tersebut terkait dengan variabel lainnya.
Variabel Ketiga: Kategorikal
Modifikasi scatter plot yang paling umum adalah menambahkan variabel ketiga. Nilai variabel ketiga dapat di-encode dengan cara mengubah cara penampilan titik-titik. Jika variabel ketiga menunjukkan nilai kategorikal (seperti region geografis atau gender), maka encoding yang paling umum digunakan adalah dengan warna titik.
Dengan demikian, kita dapat mengetahui bahwa Fersons (kuning) secara umum lebih lebar dari Miltons (biru), tetapi juga lebih pendek untuk diameter yang sama. Selain itu, opsi lainnya yang terkadang ditemukan untuk encoding variabel ketiga adalah menggunakan bentuk. Namun, perlu diingat bahwa berbagai bentuk dapat memiliki ukuran dan luas permukaan yang berbeda, sehingga dapat mempengaruhi bagaimana grup-grup diinterpretasikan.
Variabel Ketiga: Numerik
Jika variabel ketiga memiliki nilai numerik, maka encoding yang paling umum digunakan adalah dengan ukuran titik. Scatter plot dengan ukuran titik berbasis variabel ketiga sebenarnya memiliki nama sendiri, yaitu bubble chart. Ukuran titik yang lebih besar menunjukkan nilai yang lebih tinggi.
Selain itu, warna juga dapat digunakan untuk mewakili nilai numerik sebagai alternatif lain. Namun, perlu diingat bahwa agar interpretasi variabel ketiga dapat dilakukan dengan benar, maka legenda adalah hal yang sangat penting.
Highlight using annotations and color
Jika kita ingin menggunakan scatter plot untuk menampilkan insights, maka dapat membantu memfokuskan titik-titik yang lebih penting dengan menggunakan annotation dan warna. Mengurangi pentingnya titik-titik lainnya membuat titik-titik yang lebih penting menjadi lebih terlihat, serta memberikan referensi untuk membandingkan titik-titik lainnya.
Scatter Map
Jika variabel-variabel dalam scatter plot adalah koordinat geografis (latitude dan longitude), maka kita dapat menambahkan titik-titik pada peta untuk mendapatkan scatter map (sekaligus dot map). Dengan demikian, kita dapat menggabungkan encoding variabel ketiga lainnya seperti ukuran titik dan warna.
Contoh yang terkenal dari scatter map adalah peta outbreak cholera tahun 1854 oleh John Snow, menunjukkan bahwa kasus-kasus cholera (batang hitam) terkonsentrasi di sekitar sumur air pada jalan Broad Street (titik tengah). Original: Wikimedia Commons
Heatmap
Sebagai catatan, heatmap dapat menjadi alternatif yang baik untuk scatter plot jika terdapat banyak titik data yang perlu dipplot dan densitasnya mengakibatkan masalah overlapping. Namun, heatmap juga dapat digunakan dalam bentuk yang sama untuk menunjukkan hubungan antara variabel ketika salah satu atau kedua variabel bukan berupa nilai numerik.
Jika kita mencoba mewakili nilai diskrit dengan scatter plot, maka semua titik dari level yang sama akan terlihat sebagai garis lurus. Heatmap dapat mengatasi masalah overlapping ini melalui pembuatan kotak-kotak yang berisi hitungan.
Connected Scatter Plot
Jika variabel ketiga yang ingin kita tambahkan menunjukkan timestamps, maka salah satu chart type yang kita pilih adalah connected scatter plot. Namun, daripada memodifikasi bentuk titik untuk menunjukkan tanggal, kita menggunakan garis-garis untuk menghubungkan observasi-observasi dalam urutan waktu.
Dengan demikian, kita dapat lebih mudah melihat bagaimana dua variabel utama tidak hanya terkait antara lainnya, tetapi juga bagaimana data tersebut terkait dengan variabel lainnya.
Tuliskan Artikel
Membaca artikel ini telah membantu Anda memahami lebih lanjut tentang trend line pada scatter plot dan bagaimana kita dapat menggunakan variasi encoding untuk menunjukkan nilai variabel ketiga. Dengan demikian, kita dapat lebih mudah menganalisis hubungan antara variabel dan membuat keputusan yang lebih baik.