======================================================
Diagram scatter plot adalah sebuah diagram yang menampilkan hubungan antara dua variabel dengan menggunakan grafik koordinat X-Y. Diagram ini digunakan untuk memplot titik data pada sumbu vertikal dan horizontal, serta tujuan utama adalah untuk menunjukkan seberapa besar pengaruh satu variabel terhadap variabel lainnya.
Contoh:
Salah satu contoh klasik adalah hubungan antara penjualan bulanan dan biaya iklan di sebuah perusahaan. Tabel di bawah ini menyajikan data untuk 7 toko online, penjualan e-commerce bulanan, dan biaya iklan online selama satu tahun.
Online Store | Monthly E-commerce Sales (1000 s) | Online Advertising Dollars (1000 s) |
---|---|---|
1368 | 1.72 | 4.01 |
5366 | 2.85 | 9.55 |
1277 | 5.49 | 11.36 |
1233 | 3.65 | 7.73 |
1113 | 1.36 | 5.63 |
7613 | 7.61 | 12.73 |
Sekarang, mari kita buat diagram scatter plot berdasarkan data yang kita miliki.
Diagram scatter plot menunjukkan bahwa ada hubungan antara penjualan e-commerce bulanan (Y) dan biaya iklan online (X). Biaya iklan lebih besar berarti penjualan e-commerce juga lebih besar. Garis orange pada plot adalah garis "best fit" atau "trend line". Garis ini digunakan untuk membantu kita membuat prediksi berdasarkan data yang telah ada.
Tipe Hubungan
Biasanya, jika ada hubungan antara dua variabel, maka variabel pertama disebut variabel independen, sedangkan variabel kedua disebut variabel dependen karena nilainya tergantung pada variabel pertama. Namun, juga mungkin tidak ada hubungan antara dua variabel.
Tujuan Diagram Scatter Plot
Diagram scatter plot memiliki beberapa tujuan dalam era data science modern. Berikut adalah beberapa contohnya:
- Untuk menunjukkan apakah dua variabel terkait atau tidak.
- Untuk menunjukkan seberapa besar pengaruh satu variabel terhadap variabel lainnya.
- Untuk membantu kita membuat prediksi perilaku variabel dependen berdasarkan nilai variabel independen.
Ketika Menggunakan Diagram Scatter Plot
Diagram scatter plot memiliki banyak aplikasi dan penggunaan modern. Berikut adalah beberapa contohnya:
- Ketika mencoba mengetahui apakah ada hubungan antara dua variabel.
- Ketika memiliki data numerik paired.
- Ketika bekerja dengan alat analisis root cause untuk mengidentifikasi potensi masalah.
- Ketika ingin visualisasi korrelasi antara dua dataset besar tanpa memperhatikan waktu.
Tipe Korrelasi dalam Diagram Scatter Plot
Dalam diagram scatter plot, kita banyak membicarakan hubungan antara dua variabel. Hal ini disebut korrelasi. Ada tiga tipe korrelasi:
- Korrelasi Positif
Korrelasi positif terjadi jika salah satu variabel (variabel dependen) meningkat ketika variabel lainnya (variabel independen) juga meningkat. Contoh yang baik adalah hubungan antara tinggi dan ukuran baju anak. Ketika tinggi anak meningkat, maka ukuran baju juga meningkat. - Korrelasi Negatif
Korrelasi negatif terjadi jika peningkatan salah satu variabel (variabel dependen) berarti penurunan variabel lainnya (variabel independen). Contoh yang baik adalah hubungan antara umur mobil dan harga mobil. Biasanya, ketika umur mobil meningkat, maka harga mobil menurun. - Korrelasi Tidak Ada
Korrelasi tidak ada berarti tidak ada hubungan antara dua variabel. Contoh yang baik adalah hubungan antara ukuran baju anak dan nilai sekolah anak.
Kelebihan Diagram Scatter Plot
Diagram scatter plot memiliki beberapa kelebihan:
- Menunjukkan hubungan dan trend dalam data.
- Menampilkan semua titik data, termasuk minimal, maximal, dan outliers.
- Menghighlight korrelasi.
- Retains exact data values and sample size.
- Menampilkan baik korrelasi positif maupun negatif.
Kekurangan Diagram Scatter Plot
Diagram scatter plot juga memiliki beberapa kekurangan:
- Tidak dapat menunjukkan hubungan yang kompleks antara dua variabel.
- Tidak dapat memprediksi perilaku variabel dependen dengan akurat.
- Memerlukan data yang cukup besar dan berisi variasi untuk mendapatkan hasil yang signifikan.
Dalam artikel ini, kita telah membahas diagram scatter plot, kelebihan dan kekurangannya. Diagram scatter plot adalah alat yang sangat berguna dalam analisis data untuk menemukan hubungan antara dua variabel dan membuat prediksi berdasarkan data yang telah ada.