Dalam analisis data, kernel memiliki peran penting dalam pengolahan data. Dalam RapidMiner, kernel digunakan sebagai bagian dari operator K-Means untuk melakukan clustering data. Dalam artikel ini, kita akan membahas tentang berbagai jenis kernel yang tersedia di RapidMiner dan cara menggunakan mereka.
Tipe Kernel
RapidMiner menyediakan beberapa jenis kernel, antara lain:
- Radial: Kernel radial didefinisikan sebagai
exp(-g ||x-y||^2)
, di manag
adalah parameter gamma yang dapat disesuaikan. - Polynomial: Kernel polynomial didefinisikan sebagai
(x*y+1)^d
, di manad
adalah derajat polynomial yang dapat disesuaikan melalui parameter kernel degree. - Neural: Kernel neural didefinisikan sebagai fungsi dua lapisan neural net
tanh(a x*y+b)
, di manaa
danb
adalah parameter alpha dan intercept constant yang dapat disesuaikan melalui parameter kernel a dan kernel b. - ANOVA: Kernel ANOVA didefinisikan sebagai
raised to power d of summation of exp(-g (x-y))
, di manag
adalah parameter gamma dand
adalah derajat polynomial yang dapat disesuaikan melalui parameter kernel degree. - Epanechnikov: Kernel Epanechnikov didefinisikan sebagai fungsi
(3/4)(1-u^2)
untuk nilaiu
antara -1 dan 1, serta nol untuk nilaiu
di luar rentang tersebut. Kernel ini memiliki dua parameter yang dapat disesuaikan, yaitu kernel sigma1 dan kernel degree. - Gaussian Combination: Kernel Gaussian combination didefinisikan sebagai gabungan dari tiga fungsi Gaussian dengan parameter sigma1, sigma2, dan sigma3 yang dapat disesuaikan.
- Multiquadric: Kernel multiquadric didefinisikan sebagai akar kuadrat dari
(||x-y||^2 + c^2)
, di manac
adalah parameter shift yang dapat disesuaikan melalui parameter kernel sigma1 dan kernel shift.
Parameter Kernel
Berbagai jenis kernel memiliki beberapa parameter yang dapat disesuaikan untuk mempengaruhi performa kernel. Parameter tersebut antara lain:
- kernel_gamma: Parameter gamma untuk kernel radial dan ANOVA.
- kernel_sigma1, kernel_sigma2, dan kernel_sigma3: Parameter sigma untuk kernel Epanechnikov, Gaussian combination, dan multiquadric.
- kernel_degree: Parameter derajat polynomial untuk kernel polynomial, ANOVA, dan Epanechnikov.
- kernel_a dan kernel_b: Parameter alpha dan intercept constant untuk kernel neural.
Tutorial Processes
Dalam bagian ini, kita akan melakukan clustering pada data set "Ripley-Set" menggunakan operator K-Means dengan kernel default. Data set ini memiliki dua atribut real, yaitu "att1" dan "att2", serta label. Kita akan memuat data set ini menggunakan operator Retrieve, lalu mengaplikasikan operator Kernel K-Means untuk melakukan clustering.
Dalam tutorial ini, kita juga akan melihat bagaimana kernel dapat digunakan untuk mempengaruhi hasil clustering, serta cara memvisualisasikan hasil clustering menggunakan Plot View.