Dalam visualisasi data, kita seringkali dihadapkan dengan masalah overplotting. Hal ini terjadi ketika nilai-nilai data yang sangat berdekatan membuat grafik menjadi sulit dipahami. Salah satu cara untuk mengatasi masalah ini adalah dengan menggunakan heatmap.
Heatmap dapat memecahkan masalah overplotting dengan cara membundel nilai-nilai data ke dalam kotak-kotak hitam. Dengan demikian, kita dapat melihat hubungan antara dua variabel utama tanpa terganggu oleh noise lainnya.
Selain itu, jika variabel ketiga yang ingin ditambahkan ke grafik menunjukkan timestamps, maka kita dapat menggunakan tipe grafik connected scatter plot. Algoritma ini tidak mengubah bentuk titik-titik untuk menunjukkan tanggal, melainkan menggunakan garis-garis untuk menghubungkan observasi-observasi secara berurutan. Dengan demikian, kita dapat melihat bagaimana hubungan antara dua variabel utama berubah seiring waktu.
Jika sumbu horizontal juga menunjukkan timestamp, maka semua garis-garis akan terus-menerus menghubungkan titik-titik dari kiri ke kanan, dan kita memiliki chart line dasar. Dengan demikian, heatmap dan connected scatter plot dapat membantu kita dalam memahami hubungan antara dua variabel utama dan bagaimana hubungan tersebut berubah seiring waktu.
Tipe Grafik Visualisasi
Grafik scatter adalah tipe grafik dasar yang harus dapat dibuat oleh setiap tool visualisasi atau solusi. Penghitung trend linear dasar juga merupakan opsi yang relatif umum, serta warna titik-titik sesuai dengan tingkat variabel ketiga kategori. Namun, opsi lain seperti trend non-linear dan pengkodean nilai variabel ketiga dengan bentuk tidak terlalu umum ditemui.
Walaupun demikian, grafik scatter dapat menjadi chart tipe yang sangat berharga untuk digunakan ketika kita memerlukan investigasi hubungan antara variabel numerik dalam data. Grafik ini adalah salah satu dari banyak tipe chart lain yang dapat digunakan untuk visualisasi data.
Modification pada Grafik Scatter
Saya menemui kode berikut dalam SAS Support Communities:
proc sgplot data=test;
scatter x=treatment y=response / group=trtcode;
xaxis offsetmin=.3 offsetmax=.3 ;
run;
Dalam kode tersebut, offsetmin
dan offsetmax
digunakan untuk menentukan posisi nilai-nila pada sumbu x. Dengan menggunakan nilai-nilai ini, kita dapat menggeser posisi nilai-nilai sehingga tidak terlalu jauh dari data point.
Saya juga menemui pertanyaan tentang bagaimana cara menampilkan mean dan median pada grafik scatter. Jawabannya adalah bahwa kita harus memiliki nilai numerik untuk sumbu x dengan format untuk menampilkan teks seperti "Trt1", sehingga kita dapat melakukan hal-hal lain seperti menambahkan teks/markernya dengan offsets kecil.
Jika kita memiliki lebih dari jumlah titik kecil, maka kita mungkin ingin melihat VBOX daripada grafik scatter, karena VBOX dapat menampilkan informasi tentang distribusi nilai-nilai yang lebih lengkap.