Dalam proses kelasifikasi, data prediktor yang digunakan dapat memiliki dimensi yang tinggi. Hal ini dapat menyebabkan model kelasifikasi menjadi overfitting dan tidak efektif dalam generalisasi. Salah satu cara untuk mengoptimalkan kinerja kelasifikasi adalah dengan menggunakan Principal Component Analysis (PCA).
Menggunakan PCA di Classification Learner
Di aplikasi Classification Learner, Anda dapat menggunakan PCA untuk mengurangi dimensi ruang prediktor. Prosesnya sebagai berikut:
- Pada tab Learn, pilih bagian Options dan centang kotak Enable PCA.
- Di dialog box Default PCA Options, pilih opsi Explained variance value dan tentukan persentase varian yang akan dijelaskan.
- Klik Save and Apply untuk mempengaruhi semua model draft yang sudah ada di Models pane dan model draft baru yang Anda buat.
Setelah mengaplikasikan PCA, aplikasi Classification Learner akan menggunakan fungsi pca untuk menerapkan transformasi linear pada prediktor sebelum melatih kelasifikasi. Dengan demikian, Anda dapat mencegah overfitting dan menciptakan model kelasifikasi yang lebih efektif.
Mengecek Opsi PCA
Pada tab Summary, Anda dapat mengecek opsi PCA untuk model yang sudah terlatih. Klik Summary tab pada model draft yang Anda pilih, dan lihat bagian PCA. Di sana, Anda dapat melihat jumlah komponen PCA yang digunakan dan persentase varian yang dijelaskan.
Investigasi Fitur dengan Plot Koordinat Paralel
Dalam proses kelasifikasi, fitur yang digunakan dapat memiliki hubungan yang tidak jelas. Untuk menginvestigasi fitur yang akan digunakan atau dihilangkan, Anda dapat menggunakan plot koordinat paralel.
Plot koordinat paralel memungkinkan Anda untuk melihat pola 2D pada data high-dimensional dan menemukan fitur yang efektif dalam membedakan kelas. Anda juga dapat melihat data pelatihan dan titik yang salah dikelasifikasi pada plot.
Menggunakan Plot Koordinat Paralel di Classification Learner
Pada tab Learn, pilih bagian Plots and Results, dan klik arrow untuk membuka galeri. Pada grup Validation Results, pilih Parallel Coordinates. Di plot, Anda dapat menggeser X tick labels untuk mengurutkan prediktor. Anda juga dapat memilih prediktor yang akan digunakan dengan menggunakan check box Predictors.
Jika Anda menemukan fitur yang tidak efektif dalam membedakan kelas, Anda dapat menggunakan feature selection untuk menghapusnya dan melatih kelasifikasi hanya menggunakan fitur yang paling bermanfaat. Lihat Select Features to Include untuk lebih informasi.
Dalam contoh di atas, plot koordinat paralel pada data fisheriris menunjukkan bahwa panjang dan lebar benang bunga adalah fitur yang paling efektif dalam membedakan kelas.
Topik-Topik Berhubungan
- Train Classification Models in Classification Learner App
- Select Data for Classification or Open Saved App Session
- Choose Classifier Options
- Visualize and Assess Classifier Performance in Classification Learner
- Export Plots in Classification Learner App
- Generate MATLAB Code to Train the Model with New Data