Trend Line pada Plot Scatter dan Modifikasi yang Pernah Dipakai

Trend Line pada Plot Scatter dan Modifikasi yang Pernah Dipakai

Dalam menginvestigasi hubungan prediktif atau korelasi antara variabel dalam plot scatter, sering kali kita menambahkan garis trend keplot untuk menunjukkan fitur matematis terbaik dengan data. Hal ini dapat memberikan sinyal tambahan tentang kuatnya hubungan antara dua variabel dan apakah ada titik-titik yang tidak biasa yang mempengaruhi perhitungan garis trend.

Variabel Kategori Ketiga

Modifikasi lain dari plot scatter dasar adalah penambahan variabel ketiga. Nilai variabel ketiga dapat didefinisikan dengan cara mengubah cara penampilan titik-titik. Untuk variabel kategori, encoding paling umum adalah melalui warna titik. Dengan memberikan setiap titik warna yang unik, maka kita dapat menampilkan anggota masing-masing titik ke dalam kelompok yang sesuai.

Contoh di atas menunjukkan bahwa Fersons (kuning) pada umumnya lebih lebar daripada Miltons (biru), tapi juga lebih pendek untuk diameter yang sama. Opsi lain untuk encoding variabel ketiga adalah melalui bentuk. Namun, perlu diingat bahwa berbagai bentuk dapat memiliki ukuran dan luas permukaan yang berbeda, sehingga dapat mempengaruhi bagaimana kelompok-kelompok dipersepsi.

Variabel Numerik Ketiga

Untuk variabel ketiga yang memiliki nilai numerik, encoding paling umum datang dari perubahan ukuran titik. Plot scatter dengan ukuran titik berdasarkan variabel ketiga sebenarnya mempunyai nama sendiri, yaitu bubble chart. Ukuran titik yang lebih besar menunjukkan nilai yang lebih tinggi. Artikel lebih lanjut tentang cara membuat bubble chart dapat dibaca di artikelnya sendiri.

Hue juga dapat digunakan untuk menggambarkan nilai numerik sebagai alternatif lain. Dalam hal ini, kita menggunakan rentangan warna kontinu sehingga, contohnya, warna yang gelap menunjukkan nilai yang lebih tinggi. Perlu diingat bahwa, dalam kasus baik ukuran dan warna, legenda penting untuk interpretasi variabel ketiga, sebab mata kita kurang mampu mendeteksi ukuran dan warna dengan mudah seperti posisi.

Highlight menggunakan Annotation dan Warna

Jika Anda ingin menggunakan plot scatter untuk menunjukkan insights, maka dapat baik untuk meng-highlight titik-titik yang menarik melalui penggunaan annotation dan warna. Men-destilasi titik-titik yang tidak penting membuat titik-titik lainnya menjadi lebih jelas dan memberikan acuan untuk membandingkan titik-titik lainnya.

Map Scatter

Ketika dua variabel dalam plot scatter adalah koordinat geografis – latitude dan longitude – kita dapat menempatkan titik-titik di atas peta untuk mendapatkan map scatter (dikenal juga sebagai dot map). Hal ini dapat berguna ketika konteks geografis penting untuk menggambar insights yang spesifik dan dapat dicampur dengan encoding variabel ketiga lainnya seperti ukuran titik dan warna.

Contoh yang terkenal dari map scatter adalah peta penyebaran cholera tahun 1854 oleh John Snow, menunjukkan bahwa kasus-kasus cholera (garis-garis hitam) berpusat di sekitar sumur air tertentu di Broad Street (titik tengah). Sumber asli: Wikimedia Commons

Heatmap

Sebagaimana diperkenalkan di atas, heatmap dapat menjadi alternatif yang baik untuk plot scatter ketika ada banyak titik data yang perlu dipaparkan dan densitasnya menyebabkan masalah overplotting. Namun, heatmap juga dapat digunakan dalam cara yang sama untuk menunjukkan hubungan antara variabel ketika salah satu atau kedua variabel bukan kontinu dan numerik. Jika kita mencoba menggambarkan nilai diskrit dengan plot scatter, maka semua titik pada level yang sama akan berada dalam garis lurus. Heatmap dapat mengatasi masalah overplotting melalui penggunaan kotak-kotak hitam.

Plot Scatter Terhubung

Jika variabel ketiga yang kita ingin tambahkan ke plot scatter menunjukkan timestamp, maka salah satu jenis chart yang kita pilih adalah plot scatter terhubung. Sebagai ganti mengubah bentuk titik untuk menunjukkan tanggal, kita menggunakan garis yang terhubung antara titik-titik.

Artikel ini menjelaskan berbagai modifikasi dan encoding yang dapat dipakai dalam plot scatter, termasuk penambahan garis trend, encoding variabel ketiga, dan penggunaan heatmap. Dengan demikian, kita dapat lebih baik memahami data dan menggambar insights yang spesifik.