Deteksi Outlier dan Clustering pada Plot Skatter

Deteksi Outlier dan Clustering pada Plot Skatter

Plot skatter adalah grafik yang menampilkan data point yang terkait dengan dua variabel. Setiap piece of data adalah titiknya sendiri pada plot skatter dan tidak ada hubungan antara titik-titik.

Definisi

  • Cluster: Sebuah cluster pada plot skatter adalah kelompok titik yang mengikuti pola umum yang sama. Mereka dapat mengikuti pola linear atau curves.
  • Outlier: Sebuah outlier adalah data point yang tidak sesuai dengan sisanya. Ia berada di luar sebuah cluster dan tidak mengikuti pola yang sama.

Mengidentifikasi Outlier dan Clustering

Untuk mengidentifikasi outlier dan clustering pada plot skatter, kita harus melalui beberapa langkah:

  1. Tentukan apakah terdapat titik data pada plot skatter yang mengikuti pola umum yang sama. Titik-titik yang mengikuti pola yang sama adalah bagian dari sebuah cluster.
  2. Tentukan apakah terdapat titik data pada plot skatter yang jauh dari pola umum sisanya. Titik-titik tersebut disebut sebagai outlier.

Contoh Masalah 1

Bawah, Anda lihat plot skatter untuk contoh masalah pertama:

Scatter Plot for Example 1

Langkah 1: Tentukan apakah terdapat titik data pada plot skatter yang mengikuti pola umum yang sama. Sebagian besar titik data tampaknya mengikuti pola linear, yaitu titik-titik yang jauh ke kanan berada di atas grafik. Ada satu cluster besar titik data yang mengikuti pola tersebut, yang dikotakan dengan warna merah.

Cluster Circled in Red

Langkah 2: Tentukan apakah terdapat titik data pada plot skatter yang jauh dari pola umum sisanya. Titik-titik tersebut disebut sebagai outlier.

Ada dua titik data yang tidak sesuai dengan pola, yaitu satu titik yang sangat tinggi di grafik tapi tidak jauh ke kanan dan satu titik yang sangat rendah di grafik tapi sangat jauh ke kanan. Dua outlier ini dikotakan dengan warna hijau.

Cluster in Red, Outliers in Green

Plot skatter ini memiliki sebuah cluster dan dua outlier.

Contoh Masalah 2

Bawah, Anda lihat plot skatter untuk contoh masalah kedua:

Scatter Plot for Example 2

Langkah 1: Tentukan apakah terdapat titik data pada plot skatter yang mengikuti pola umum yang sama. Tidak ada pola linear ini, tapi kita dapat melihat bahwa ada dua kelompok titik pada sisi kiri yang tinggi di grafik dan sebuah kelompok titik pada sisi kanan yang rendah di grafik. Kita memiliki dua cluster ini, dikotakan dengan warna merah.

Clusters Circled in Red

Langkah 2: Tentukan apakah terdapat titik data pada plot skatter yang jauh dari pola umum sisanya. Titik-titik tersebut disebut sebagai outlier.

Ada satu outlier di plot skatter ini, di luar keduabelas cluster.

Clusters in Red, Outlier in Green

Plot skatter ini memiliki dua cluster dan satu outlier.

Dengan demikian, dengan menggunakan langkah-langkah di atas, kita dapat mengidentifikasi outlier dan clustering pada plot skatter.