Tren Line dan Visualisasi Data dengan Scatter Plot

Tren Line dan Visualisasi Data dengan Scatter Plot

Seorang analisis data sering menggunakan scatter plot untuk memvisualisasikan hubungan prediktif atau korrelasional antara variabel-variabel. Dalam hal ini, menambahkan tren line ke plot dapat memberikan sinyal tambahan tentang kuatnya hubungan antara dua variabel, serta apakah ada titik-titik yang tidak biasa yang mempengaruhi komputasi tren line.

Variabel Ketiga Kategorikal

Modifikasi umum scatter plot adalah penambahan variabel ketiga. Nilai variabel ketiga dapat di-encode dengan cara mengubah bagaimana titik-titik diploth. Untuk variabel ketiga yang menunjukkan nilai kategori (seperti wilayah geografis atau gender), encoding yang paling umum adalah melalui warna titik. Memberikan tiap titik warna yang berbeda membuatnya mudah untuk menampilkan anggota setiap titik ke dalam kelompok masing-masing.

Contoh

Contohnya, jika kita ingin menampilkan hubungan antara diameter dan tinggi pohon, maka titik-titik dapat diwarnai berdasarkan jenis pohon. Dengan demikian, Fersons (kuning) biasanya lebih lebar daripada Miltons (biru), namun juga lebih pendek untuk diameter yang sama.

Variabel Ketiga Nominal

Untuk variabel ketiga dengan nilai nominal, encoding yang umum adalah melalui ukuran titik. Scatter plot dengan ukuran titik berdasarkan variabel ketiga ACTUALLY dinamakan "bubble chart". Ukuran titik yang lebih besar menunjukkan nilai yang lebih tinggi.

Highlight menggunakan Annotation dan Warna

Jika kita ingin menggunakan scatter plot untuk menampilkan insights, maka dapat membantu dengan menggarisbawahi titik-titik yang berminat melalui penggunaan annotation dan warna. Mengurangi warna titik yang tidak penting membuat titik-titik lainnya menjadi lebih berdiri, serta memberikan referensi untuk membandingkan titik-titik lainnya.

Scatter Map

Jika dua variabel dalam scatter plot adalah koordinat geografis – latitude dan longitude – maka kita dapat menampilkan titik-titik di atas peta untuk mendapatkan scatter map (aka dot map). Dengan demikian, kita dapat menggunakan konteks geografis yang berguna untuk menggambar insiden khusus dan dapat digabung dengan encoding variabel ketiga lainnya seperti ukuran titik dan warna.

Heatmap

Seperti yang disebutkan sebelumnya, heatmap dapat menjadi alternatif bagus untuk scatter plot saat ada banyak data point yang perlu diploth dan kepadatan mereka menyebabkan masalah overlapping. Namun, heatmap juga dapat digunakan dalam cara yang sama untuk menampilkan hubungan antara variabel saat salah satu atau kedua variabel bukan berupa nilai nominal. Jika kita mencoba mempresentasikan nilai discrete dengan scatter plot, maka semua titik dari level yang sama akan berada dalam garis lurus. Heatmap dapat mengatasi masalah overlapping melalui pembagian nilai ke dalam kotak hitung.

Connected Scatter Plot

Jika variabel ketiga yang ingin kita tambahkan menunjukkan timestamp, maka salah satu jenis chart yang kita pilih adalah connected scatter plot. Sebaliknya, menggunakan garis segmen untuk menghubungkan observasi agar lebih mudah dipahami bagaimana dua variabel utama tidak hanya berhubungan, namun juga bagaimana hubungan tersebut berubah seiring waktu.

Tools Visualisasi

Scatter plot adalah chart type dasar yang seharusnya dapat di-creat oleh setiap tools visualisasi atau solusi. Komputasi tren line dasar juga adalah pilihan yang cukup umum, serta coloring titik berdasarkan level variabel ketiga kategori. Pilihan lain, seperti tren line non-linear dan encoding nilai variabel ketiga melalui bentuk, tidak begitu lazim ditemui. Meskipun demikian, scatter plot dapat menjadi chart type yang berguna untuk digunakan saat kita perlu mengeksplorasi hubungan antara variabel-variabel numeric dalam data.

Scatter plot adalah salah satu dari banyak chart type yang dapat digunakan untuk memvisualisasikan data. Pelajari lebih lanjut dari artikel kami tentang chart type esensial, cara memilih tipe visualisasi data, atau dengan membaca koleksi lengkap artikel di kategori charts.

Leave a comment