Dalam pengolahan data, transformasi data adalah tahap yang sangat penting untuk meningkatkan kualitas data dan memudahkan analisis lebih lanjut. Salah satu algoritma transformasi data yang populer dalam sklearn adalah PowerTransformer, Box-Cox Transformer, QuantileTransformer, dan Normalizer.
PowerTransformer
PowerTransformer adalah algoritma transformasi data yang digunakan untuk mengubah skala data menjadi normalisasi (zero-mean, unit variance). Algoritma ini menggunakan estimasi likelihood maximum untuk menentukan faktor skalings optimal. Namun, perlu diingat bahwa Box-Cox hanya dapat diterapkan pada data positif.
Box-Cox Transformer
Box-Cox Transformer adalah algoritma transformasi data yang mirip dengan PowerTransformer, namun memiliki beberapa perbedaan. Algoritma ini juga menggunakan estimasi likelihood maximum untuk menentukan faktor skalings optimal, namun hanya dapat diterapkan pada data positif.
QuantileTransformer
QuantileTransformer adalah algoritma transformasi data yang digunakan untuk mengubah skala data menjadi uniform atau distribusi normal. Algoritma ini akan membuat semua data, termasuk outliers, terlihat seperti bagian dari distribusi uniform dengan rentang [0, 1]. Hal ini berarti bahwa outliers tidak dapat dibedakan dari inliers.
Normalizer
Normalizer adalah algoritma transformasi data yang digunakan untuk mengubah skala data menjadi unit norm. Algoritma ini akan membuat semua data terlihat seperti bagian dari bola unit, sehingga semua sample memiliki jarak yang sama dari asal (0, 0).
Pipelines dengan GMLVQ
Dalam beberapa contoh sebelumnya, kita telah menggunakan instance StandardScalar untuk memproses data sebelum fitting model. Namun, sklearn juga menyediakan fitur pipeline yang memungkinkan kita untuk membuat koneksi antara scalar dan model. Pipelines ini dapat digunakan dan akan menghubungkan fit method dari scalar dengan fit method dari model.
Dalam contoh di atas, kita menggunakan instance GMLVQ sebagai model, namun hal ini juga berlaku untuk semua algoritma lainnya. Kita dapat membuat pipeline dengan menggabungkan instance StandardScaler dengan instance GMLVQ dan lalu memfit data ke dalam pipeline.
Hasil
Dalam contoh di atas, kita telah menggunakan pipeline yang terdiri dari instance StandardScaler dan instance GMLVQ untuk fitting model dan melakukan prediksi. Hasilnya menunjukkan bahwa classifier memiliki akurasi sekitar 0.98.
Total running time of the script: (0 minutes 9.245 seconds)