Scatter Plot: Adding Trend Lines and Third Variables

Scatter Plot: Adding Trend Lines and Third Variables

Sebuah scatter plot adalah salah satu jenis grafik yang paling populer dan digunakan untuk menganalisis hubungan antara dua variabel numerik. Salah satu cara untuk memahami lebih dalam tentang hubungan ini adalah dengan menambahkan garis trend ke plot, yang menunjukkan bagaimana nilai-nilai data tersebut dapat dihubungkan melalui suatu fungsi matematika.

Trend line tidak hanya memberikan informasi tambahan tentang kekuatan hubungan antara dua variabel, namun juga membantu kita mengetahui apakah ada titik data yang tidak biasanya mempengaruhi penghitungan garis trend. Dalam beberapa kasus, garis trend dapat menjadi bantuan dalam menemukan anomali atau kesalahan data.

Kategori Variabel Ketiga

Salah satu modifikasi dasar scatter plot adalah penambahan variabel ketiga. Nilai-nilai variabel ketiga dapat dikodekan dengan cara memodifikasi bagaimana titik-titik diplot. Untuk variabel ketiga yang menunjukkan nilai kategori (seperti wilayah geografis atau gender), encoding paling umum adalah melalui warna. Meningkatkan warna pada setiap titik membuatnya mudah untuk menampilkan anggota masing-masing titik ke dalam grup yang sesuai.

Contoh, jika kita memiliki data tentang diameter dan berat kayu Fersons (kuning) dan Miltons (biru), maka kita dapat melihat bahwa Fersons biasanya lebih lebar namun lebih pendek untuk diameter yang sama. Warna lain dapat digunakan sebagai encoding kategori variabel ketiga lainnya.

Variabel Numrik Ketiga

Untuk variabel ketiga yang memiliki nilai numerik, encoding paling umum adalah dengan cara mengubah ukuran titik. Grafik scatter plot dengan ukuran titik berdasarkan variabel ketiga disebut bubble chart. Ukuran titik yang lebih besar menunjukkan nilai yang lebih tinggi. Artikel lainnya dapat membahas tentang bagaimana membuat bubble chart yang lebih baik.

Warna juga dapat digunakan sebagai encoding numerik, namun bukan dalam bentuk warna yang berbeda untuk setiap titik seperti pada kategori kategori, melainkan menggunakan suatu urutan warna kontinu untuk menunjukkan nilai-nilai yang lebih tinggi. Dalam hal ini, legenda sangat penting agar kita dapat memahami variabel ketiga dengan lebih baik.

Highlight using Annotations and Color

Jika kita ingin menggunakan scatter plot untuk menggambarkan insights, maka dapatlah kita memilih titik-titik yang lebih penting dan menampilkan mereka dengan cara desaturasi titik lainnya. Mereka menjadi lebih terlihat sehingga kita dapat membandingkan mereka dengan yang lain.

Scatter Map

Ketika dua variabel dalam scatter plot adalah koordinat geografis – lintang dan bujur – maka kita dapat menggabungkannya dengan peta untuk mendapatkan scatter map (dot map). Hal ini dapat sangat berguna ketika konteks geografis sangat penting dan dapat dikombinasikan dengan encoding kategori variabel ketiga lainnya seperti ukuran titik dan warna.

Contoh yang terkenal adalah scatter map John Snow tahun 1854 tentang epidemi cholera, menunjukkan bahwa kasus-kasus cholera (garis hitam) berpusat di sekitar sebuah sumur air pada Jalan Broad Street (titik tengah).

Heatmap

Sebagai catatan, heatmap dapat menjadi alternatif yang baik untuk scatter plot ketika ada banyak titik data yang perlu dipplot dan densitasnya dapat menyebabkan masalah overplotting. Namun, heatmap juga dapat digunakan dalam cara yang sama untuk menunjukkan hubungan antara variabel ketika salah satu atau kedua variabel bukan numerik. Jika kita mencoba mendeploy nilai discrete dengan scatter plot, maka semua titik dari level yang sama akan berada di garis lurus. Heatmap dapat mengatasi masalah overplotting melalui penggunaan boks count.

Connected Scatter Plot

Jika variabel ketiga yang ingin ditambahkan menunjukkan timestamps, maka kita dapat memilih connected scatter plot. Namun, bukannya cara memodifikasi bentuk titik untuk menunjukkan tanggal, kita menggunakan garis-garis untuk menghubungkan observasi-observasi secara berurutan. Hal ini dapat membuatnya lebih mudah untuk melihat bagaimana dua variabel utama tidak hanya berhubungan dengan satu sama lain, namun juga bagaimana hubungan tersebut berubah seiring waktu. Jika tanggalnya terlampir, maka kita dapat mengetahui apakah ada anomali atau kesalahan data.

Kesimpulan

Dalam artikel ini, kita telah membahas tentang cara memanfaatkan scatter plot dengan penambahan garis trend dan variabel ketiga. Dengan menggunakan encoding kategori dan numerik, serta highlight, kita dapat meningkatkan kemampuan analisis dan menggambarkan insights yang lebih baik.