Mengembangkan Scatter Plot dengan Trend Line dan Variabel Ketiga

Mengembangkan Scatter Plot dengan Trend Line dan Variabel Ketiga

Saebom menggunakan scatter plot untuk menganalisis hubungan prediktif atau korelasi antara variabel-variabel, maka menambahkan garis trend ke plot tersebut dapat memberikan sinyal tambahan tentang sekuatnya hubungan antara dua variabel dan apakah ada titik-titik yang tidak biasa yang mempengaruhi perhitungan garis trend.

Variabel Ketiga Kategori

Modifikasi lain dari scatter plot dasar adalah penambahan variabel ketiga. Nilai variabel ketiga dapat dikodekan dengan mengubah cara penggantian titik. Untuk variabel ketiga kategori (seperti wilayah geografis atau gender), pengkodean yang paling umum adalah melalui warna titik. Dengan memberikan setiap titik warna yang berbeda, maka dapat menunjukkan keanggotaan tiap titik ke dalam kelompok tertentu.

Contoh: Warna titik berbeda untuk jenis pohon (Fersons – kuning dan Milton – biru) menunjukkan bahwa Fersons umumnya lebih lebar namun lebih pendek untuk diameter yang sama. Pilihan lain untuk pengkodean variabel ketiga kategori adalah menggunakan bentuk. Namun, perlu diingat bahwa berbagai bentuk dapat memiliki ukuran dan luas permukaan yang berbeda, sehingga dapat mempengaruhi cara penganggapan kelompok.

Variabel Ketiga Nominal

Untuk variabel ketiga dengan nilai nominal, pengkodean umum datang dari mengubah ukuran titik. Scatter plot dengan ukuran titik berdasarkan variabel ketiga sebenarnya dikenal sebagai bubble chart. Titik yang lebih besar menunjukkan nilai yang lebih tinggi. Artikel lain dapat membahas detailnya.

Highlight dengan Annotation dan Warna

Jika Anda ingin menggunakan scatter plot untuk presentasi insights, maka dapat baik untuk mempertahankan titik-titik yang berharga melalui penggunaan annotation dan warna. Membuat titik-titik tak penting menjadi tidak berwarna membuat titik-titik lainnya lebih menonjol, serta memberikan referensi untuk dibandingkan.

Scatter Map

Ketika dua variabel dalam scatter plot adalah koordinat geografis – lintang dan bujur – maka kita dapat menempelkan titik-titik ke peta untuk mendapatkan scatter map (aka dot map). Hal ini dapat bermanfaat ketika konteks geografis berguna untuk menarik insights tertentu, serta dapat dikombinasikan dengan pengkodean variabel ketiga lainnya seperti ukuran titik dan warna.

Contoh: Scatter map yang terkenal adalah peta cholera outbreak tahun 1854 oleh John Snow, menunjukkan bahwa kasus cholera (baris hitam) berpusat di sekitar sumur air tertentu pada jalan Broad (titik tengah). Original: Wikimedia Commons

Heatmap

Sebagaimana disebutkan di atas, heatmap dapat menjadi alternatif yang baik untuk scatter plot ketika ada banyak titik data yang perlu dipplot dan densitasnya menyebabkan masalah overplotting. Namun, heatmap juga dapat digunakan dalam cara yang serupa untuk menunjukkan hubungan antara variabel ketika salah satu atau kedua variabel tidak berkelanjutan dan nominal. Jika kita mencoba memplot nilai diskrit dengan scatter plot, maka semua titik dari level yang sama akan membentuk garis lurus. Heatmap dapat mengatasi masalah overplotting melalui penggumpalan nilai menjadi kotak hitungan.

Connected Scatter Plot

Jika variabel ketiga yang ingin ditambahkan ke scatter plot menunjukkan timestamps, maka salah satu jenis chart yang kita dapat pilih adalah connected scatter plot. Sebagai gantinya dari mengubah bentuk titik untuk menunjukkan tanggal, kita menggunakan segmen garis untuk menghubungkan observasi dalam urutan. Hal ini dapat membuat lebih mudah untuk melihat bagaimana dua variabel utama tidak hanya berelasi dengan satu sama lain, namun juga bagaimana hubungan tersebut berubah seiring waktu.

Jika sumbu horizontal juga sesuai dengan waktu, maka semua segmen garis akan terus menghubungkan titik-titik dari kiri ke kanan, dan kita memiliki chart garis dasar.

Tangkapan alat visualisasi

Scatter plot adalah chart jenis dasar yang seharusnya dapat dibuat oleh apapun alat visualisasi atau tool. Mereka dapat membantu Anda untuk mendapatkan insighs lebih baik dari data Anda dan membuat Anda lebih mudah memahami hubungan antara variabel-variabel.

Namun, perlu diingat bahwa scatter plot harus digunakan dengan bijak dan tepat, serta tidak boleh melebih batasnya.

Leave a comment