Penggunaan Scatter Plot sebagai Bagian dari K-Means Clustering

Penggunaan Scatter Plot sebagai Bagian dari K-Means Clustering

Dalam analisis data, scatter plot adalah salah satu cara yang paling populer untuk menganalisis hubungan antara dua variabel. Namun, dalam k-means clustering, kita tidak hanya memiliki scatter plot biasa, namun juga memiliki cluster yang berbeda-beda. Dalam artikel ini, kita akan membahas bagaimana menggunakan scatter plot sebagai bagian dari k-means clustering.

Mengapa Cluster Beroverlap?

Dalam k-means clustering, kita dapat melihat bahwa cluster-cluster tersebut beroverlap. Hal ini terjadi karena k-means tidak hanya mempertimbangkan dua variabel yang digunakan dalam scatter plot, namun juga mempertimbangkan semua data yang ada. Oleh karena itu, kita dapat melihat bahwa cluster-cluster tersebut tidak hanya beroverlap pada scatter plot, namun juga memiliki hubungan dengan data lainnya.

Silhouette Score

Dalam k-means clustering, silhouette score adalah salah satu cara untuk mengetahui apakah k-means telah berhasil membagi data menjadi beberapa cluster yang jelas. Namun, dalam beberapa kasus, kita dapat melihat bahwa silhouette score tidak terlalu tinggi, yaitu sekitar 0.19. Hal ini terjadi karena k-means tidak memiliki cara untuk mengetahui apakah k-means telah berhasil membagi data menjadi beberapa cluster yang jelas.

Interactive K-Means

Dalam artikel ini, kita akan membahas tentang Interactive K-Means, yaitu widget edukatif yang menunjukkan bagaimana algoritma k-means clustering bekerja. Widget ini dapat digunakan untuk melihat bagaimana k-means clustering bekerja pada dua variabel dari sebuah data set.

Bagian-Bagian Widget

Widget Interactive K-Means terdiri atas beberapa bagian, yaitu:

  • Data: input data set
  • Centroids: posisi centroid-centroid
  • Description: deskripsi widget

Cara Menggunakan Widget

Untuk menggunakan widget ini, kita dapat melakui berikut:

  1. Pilih dua variabel untuk x dan y axis.
  2. Set the number of centroids: jumlah centroid yang diinginkan.
  3. Randomize: atur posisi centroid secara random.
  4. Show membership lines: jika diaktifkan, akan menunjukkan hubungan antara data points dan centroid-centroid terdekat.
  5. Recompute centroids atau Reassign membership: langkah-langkah dalam algoritma k-means.
  6. Step back: mundur ke langkah sebelumnya.
  7. Run: lanjutkan dengan algoritma k-means secara otomatis.
  8. Speed: atur kecepatan lanjutan.
  9. Save Image: simpan gambar sebagai file SVG atau PNG.

Contoh Penggunaan

Dalam contoh penggunaan, kita akan membahas bagaimana menggunakan widget Interactive K-Means pada data set Iris. Kita dapat memuat data dari File dan kemudian membuka widget Interactive K-Means. Selanjutnya, kita dapat menentukan dua variabel yang ingin digunakan sebagai x dan y axis, serta jumlah centroid yang diinginkan.

Dalam proses menggunakan widget ini, kita dapat melihat bagaimana k-means clustering bekerja secara interaktif, mulai dari mempertahankan posisi centroid hingga mengubahnya. Kita juga dapat melihat bagaimana algoritma k-means clustering bekerja pada data set yang berbeda-beda.

Dengan demikian, menggunakan scatter plot sebagai bagian dari k-means clustering dapat membantu kita dalam menganalisis hubungan antara dua variabel dan membagi data menjadi beberapa cluster yang jelas.