Deteksi Outlier dan Clustering pada Plot Skalar

Deteksi Outlier dan Clustering pada Plot Skalar

Dalam analisis data, plot skalar adalah salah satu cara untuk menampilkan hubungan antara dua variabel. Namun, dalam beberapa kasus, plot skalar dapat memiliki titik data yang tidak sesuai dengan pola umum lainnya. Titik-titik seperti ini disebut sebagai outlier.

Langkah 1: Identifikasi Cluster

Untuk mengidentifikasi outlier dan cluster pada plot skalar, kita perlu mencari apakah ada pola umum dalam plot. Jika terdapat pola umum, maka titik-titik yang sesuai dengan pola tersebut adalah bagian dari cluster.

Langkah 2: Identifikasi Outlier

Setelah mengidentifikasi cluster, kita perlu mencari apakah ada titik data yang tidak sesuai dengan pola umum. Titik-titik seperti ini disebut sebagai outlier.

Vokabular

  • Plot Skalar: Grafik yang menampilkan data point yang terkait dengan dua variabel.
  • Cluster: Grup titik data yang sesuai dengan pola umum, dapat berupa pola linear atau curved.
  • Outlier: Titik data yang tidak sesuai dengan pola umum lainnya.

Contoh 1: Identifikasi Outlier dan Cluster

Dalam contoh ini, kita akan menampilkan plot skalar yang menunjukkan hubungan antara berat backpack dan jarak backpack pada siswa-siswi yang melakukan backpacking trip.

[Plot Skalar]

Dari plot tersebut, kita dapat melihat bahwa mayoritas titik data mengikut pola linear. Terdapat satu cluster besar yang sesuai dengan pola tersebut. Cluster tersebut dilingkarkan dalam warna merah.

[Drawing]

Jika kita lihat lebih dekat, kita dapat melihat bahwa terdapat dua titik data yang tidak sesuai dengan pola umum. Kedua titik tersebut dilingkarkan dalam warna hijau.

[Drawing]

Dalam contoh ini, kita memiliki satu cluster dan dua outlier.

Contoh 2: Identifikasi Outlier dan Cluster

Dalam contoh ini, kita akan menampilkan plot skalar yang menunjukkan hubungan antara kualitas komputer dan harga komputer.

[Plot Skalar]

Dari plot tersebut, kita dapat melihat bahwa terdapat dua cluster. Satu cluster terletak di sisi kiri, sedangkan cluster lain terletak di sisi kanan. Kita tidak dapat melihat pola linear yang jelas, tetapi kita dapat melihat bahwa terdapat titik-titik data yang sesuai dengan setiap cluster.

[Drawing]

Jika kita lihat lebih dekat, kita dapat melihat bahwa terdapat satu titik data yang tidak sesuai dengan pola umum. Titik tersebut dilingkarkan dalam warna hijau.

[Drawing]

Dalam contoh ini, kita memiliki dua cluster dan satu outlier.

Penerapan

Dalam kehidupan sehari-hari, deteksi outlier dan cluster dapat membantu kita memahami pola data yang lebih kompleks. Contohnya, jika kita ingin mengetahui bagaimana harga komputer terhadap kualitasnya, maka kita perlu mengidentifikasi cluster dan outlier dalam plot skalar.

Praktek

Untuk lebih paham tentang mengapa beberapa titik data dapat dianggap sebagai outlier, kita akan mencoba beberapa soal latihan.

Soal 1: Michelle adalah siswi yang sedang melakukan penelitian tentang komputer. Dia membuat scatter plot yang menunjukkan harga dan kualitas komputer.

[Plot Skalar]

Soal 2: Sebuah lembaga pendidikan mempelajari bagaimana banyak siswa di AS mengikuti ujian SAT. Scatter plot berikut menunjukkan persentase siswa yang mengikuti ujian SAT di setiap negara, serta skor rata-rata matematika.

[Plot Skalar]

Tiga titik data yang dilingkarkan dapat dianggap sebagai outlier.

Leave a comment