Dalam statistika dan visualisasi data, plot scatter (plot titik) adalah salah satu cara yang paling umum untuk mewakili hubungan antara dua variabel. Dalam plot scatter, setiap titik pada plot representasikan sebuah data, sehingga kita dapat memahami hubungan antara dua variabel tersebut.
Dalam contoh ini, kita akan menggunakan dataset "tips" yang disediakan oleh library seaborn
(sns). Dataset ini berisi informasi tentang total bill dan tip pada beberapa restoran. Kita akan menggunakan plot scatter untuk mewakili hubungan antara total bill dan tip.
Menggunakan Variabel Numerik sebagai Hue
Pada awalnya, kita dapat menggunakan variabel numerik sebagai hue (warna) pada plot scatter. Dalam contoh ini, kita akan menggunakan variabel "size" sebagai hue.
sns.scatterplot(data=tips, x="total_bill", y="tip", hue="size")
Kita dapat melihat bahwa warna titik-titik tersebut berbeda-beda tergantung pada nilai variabel "size".
Menggunakan Variabel Kategorikal sebagai Hue
Selain menggunakan variabel numerik, kita juga dapat menggunakan variabel kategorikal sebagai hue. Dalam contoh ini, kita akan menggunakan variabel "time" sebagai hue.
sns.scatterplot(data=tips, x="total_bill", y="tip", hue="time")
Kita dapat melihat bahwa warna titik-titik tersebut berbeda-beda tergantung pada level-level dari variabel "time".
Menggunakan Variabel Kategorikal sebagai Style
Selain menggunakan variabel kategorikal sebagai hue, kita juga dapat menggunakan variabel tersebut sebagai style (simbol) pada plot scatter.
sns.scatterplot(data=tips, x="total_bill", y="tip", hue="time", style="time")
Kita dapat melihat bahwa simbol-simbol titik-titik tersebut berbeda-beda tergantung pada level-level dari variabel "time".
Mengontrol Rangkaian Marker
Dalam beberapa kasus, kita mungkin ingin mengontrol rangkaian marker (simbol) yang digunakan untuk plot scatter. Dalam contoh ini, kita akan menggunakan dictionary untuk menentukan simbol-simbol yang akan digunakan.
markers = {"Lunch": "s", "Dinner": "X"}
sns.scatterplot(data=tips, x="total_bill", y="tip", style="time", markers=markers)
Kita dapat melihat bahwa simbol-simbol titik-titik tersebut berbeda-beda tergantung pada level-level dari variabel "time".
Mengontrol Legend
Dalam beberapa kasus, kita mungkin ingin mengontrol legend (legenda) yang digunakan untuk plot scatter. Dalam contoh ini, kita akan menggunakan keyword legend="full"
untuk memaksa semua nilai unik variabel "size" untuk muncul di legenda.
sns.scatterplot(
data=tips, x="total_bill", y="tip", hue="size", size="size",
sizes=(20, 200), legend="full"
)
Kita dapat melihat bahwa legenda tersebut berisi semua nilai unik variabel "size".
Dalam kesimpulan, plot scatter adalah salah satu cara yang paling umum untuk mewakili hubungan antara dua variabel. Dengan menggunakan variasi warna dan simbol, kita dapat memahami hubungan antara dua variabel tersebut lebih baik. Selain itu, kita juga dapat mengontrol rangkaian marker dan legend untuk membuat plot scatter yang lebih informatif.