Istilah scatter plot tidak terasa asing bagi kita. Mungkin Anda telah mengetahuinya bahkan sejak di bangku SMA. Namun penggunaan scatter plot mungkin masih kurang saat kita berada di sekolah.
Dalam visualisasi data, kita perlu menggunakan fitur scatter plot ini. Scatter plot dapat membantu Anda atau audiens Anda dalam memahami data yang memiliki sebuah hubungan korelasi.
Pada artikel saya kali ini, kita akan membahas tentang visualisasi data menggunakan scatter plot. Berikut penjelasannya
APA ITU SCATTER PLOT?
Scatter plot atau diagram pencar adalah salah satu jenis visualisasi data. Scatter plot dapat menunjukkan hubungan antara variabel yang berbeda. Data ditampilkan dengan cara menempatkan berbagai titik data antara sumbu x (horizontal) dan sumbu y (vertikal).
Setiap titik data seperti terlihat “tersebar” di sekitar grafik, yang menjadikan nama untuk jenis visualisasi data ini.
Scatter plot juga biasa disebut grafik x-y. Tujuan dari penggunaan scatter plot salah satunya adalah untuk menentukan apakah ada pola atau korelasi antara dua variabel.
Pola atau korelasi antara dua variabel pada scatter plot memiliki fitur yang berbeda, yakni sebagai berikut:
- Linear atau non linear: korelasi linier membentuk garis lurus di titik datanya, sedangkan korelasi non linier mungkin memiliki kurva atau bentuk lain dalam titik data.
- Kuat atau lemah: korelasi yang kuat akan memiliki titik data yang berdekatan, sementara korelasi yang lemah akan memiliki titik data yang terpisah lebih jauh.
- Positif atau negatif: korelasi positif akan mengarah ke atas (yakni, jika nilai x dan y keduanya meningkat), sedangkan korelasi negatif akan mengarah ke bawah (yakni, jika nilai x meningkat sementara nilai y menurun)
Namun, jika Anda tidak melihat salah satu fitur ini ada di dalam grafik Anda, tidak perlu khawatir. Scatter plot tetap berguna untuk memvisualisasikan data Anda.
KAPAN ANDA PERLU MENGHINDARI SCATTER PLOT?
Sama seperti ketika ada waktu tertentu menggunakan scatter plot, maka ada waktu ketika Anda harus menghindarinya. Berikut adalah waktu-waktu tersebut:
- Hindari scatter plot, ketika data Anda sama sekali tidak terkait
Jika data Anda menunjukkan bahwa tidak ada korelasi, maka scatter plot tidak akan berguna untuk memvisualisasikan data Anda.
Misalnya, jika Anda mengumpulkan survei acak pada audiens Anda, tentang tinggi tubuh audiens, dengan jumlah hewan peliharaan yang mereka miliki di rumah. Itu sangat tidak masuk akal untuk dihubungkan dalam scatter plot.
Kedua variabel di atas jelas tidak memiliki hubungan apapun, dan meskipun masih menyenangkan untuk dibuat grafik, maka untuk solusinya, Anda bisa beralih ke diagram batang sebagai pilihan yang baik.
- Hindari scatter plot, ketika Anda memiliki kumpulan data yang terlalu besar
Jika Anda memiliki begitu banyak data, saran dari visme adalah menghindarinya.
Ahli statistik Nathan Yau, menyimpulkan fenomena ini dengan cukup baik dalam grafik di atas.
Sebagai contoh lain, lihat scatter plot di bawah ini,. Sangat pada sehingga pada dasarnya menjadi satu kumpalan besar dan sulit untuk memahami isi data dari diagram semacam ini.
Jika memang data Anda terlalu banyak, pertimbangkan menggunakan grafik dalam bentuk Heat Map. Ini dapat menunjukkan di mana bagian paling banyak dari data Anda berada
Anda juga dapat memberi kode warna pada berbagai kumpulan data menggunakan titik data tembus cahaya untuk membuat efek seperti heat map dan banyak lagi.
Nah itu tadi pembahasan terkait visualisasi data dengan scatter plot . Nantikan tulisan saya berikutnya ya. Feel free to share and give new insight for all.
Semoga Bermanfaat
AB