Pemahaman Kernel pada RapidMiner

Pemahaman Kernel pada RapidMiner

Dalam analisis data, kernel memiliki peran penting dalam pengolahan data. Dalam RapidMiner, kernel digunakan sebagai bagian dari operator K-Means untuk melakukan clustering data. Dalam artikel ini, kita akan membahas tentang berbagai jenis kernel yang tersedia di RapidMiner dan cara menggunakan mereka.

Tipe Kernel

RapidMiner menyediakan beberapa jenis kernel, antara lain:

  • Radial: Kernel radial didefinisikan sebagai exp(-g ||x-y||^2), di mana g adalah parameter gamma yang dapat disesuaikan.
  • Polynomial: Kernel polynomial didefinisikan sebagai (x*y+1)^d, di mana d adalah derajat polynomial yang dapat disesuaikan melalui parameter kernel degree.
  • Neural: Kernel neural didefinisikan sebagai fungsi dua lapisan neural net tanh(a x*y+b), di mana a dan b adalah parameter alpha dan intercept constant yang dapat disesuaikan melalui parameter kernel a dan kernel b.
  • ANOVA: Kernel ANOVA didefinisikan sebagai raised to power d of summation of exp(-g (x-y)), di mana g adalah parameter gamma dan d adalah derajat polynomial yang dapat disesuaikan melalui parameter kernel degree.
  • Epanechnikov: Kernel Epanechnikov didefinisikan sebagai fungsi (3/4)(1-u^2) untuk nilai u antara -1 dan 1, serta nol untuk nilai u di luar rentang tersebut. Kernel ini memiliki dua parameter yang dapat disesuaikan, yaitu kernel sigma1 dan kernel degree.
  • Gaussian Combination: Kernel Gaussian combination didefinisikan sebagai gabungan dari tiga fungsi Gaussian dengan parameter sigma1, sigma2, dan sigma3 yang dapat disesuaikan.
  • Multiquadric: Kernel multiquadric didefinisikan sebagai akar kuadrat dari (||x-y||^2 + c^2), di mana c adalah parameter shift yang dapat disesuaikan melalui parameter kernel sigma1 dan kernel shift.

Parameter Kernel

Berbagai jenis kernel memiliki beberapa parameter yang dapat disesuaikan untuk mempengaruhi performa kernel. Parameter tersebut antara lain:

  • kernel_gamma: Parameter gamma untuk kernel radial dan ANOVA.
  • kernel_sigma1, kernel_sigma2, dan kernel_sigma3: Parameter sigma untuk kernel Epanechnikov, Gaussian combination, dan multiquadric.
  • kernel_degree: Parameter derajat polynomial untuk kernel polynomial, ANOVA, dan Epanechnikov.
  • kernel_a dan kernel_b: Parameter alpha dan intercept constant untuk kernel neural.

Tutorial Processes

Dalam bagian ini, kita akan melakukan clustering pada data set "Ripley-Set" menggunakan operator K-Means dengan kernel default. Data set ini memiliki dua atribut real, yaitu "att1" dan "att2", serta label. Kita akan memuat data set ini menggunakan operator Retrieve, lalu mengaplikasikan operator Kernel K-Means untuk melakukan clustering.

Dalam tutorial ini, kita juga akan melihat bagaimana kernel dapat digunakan untuk mempengaruhi hasil clustering, serta cara memvisualisasikan hasil clustering menggunakan Plot View.

Leave a comment