T-SNE (t-Distributed Stochastic Neighbor Embedding) adalah sebuah algoritma untuk mengurangi dimensi dari data yang memiliki ukuran tinggi menjadi 2D atau 3D. Salah satu kelebihan T-SNE adalah kemampuan untuk memvisualisasikan struktur lokal dalam data, sehingga dapat membantu menemukan kelas-kelas yang tidak linear.
Namun, dalam beberapa kasus, T-SNE tidak dapat memisahkan kelas-kelas yang linear. Hal ini terjadi karena T-SNE menggunakan jarak antar titik sebagai input, sehingga algoritma tersebut tidak memiliki pengetahuan tentang adanya batas linear yang dapat memisahkan kelas-kelas.
Sebagai contoh, jika kita memiliki data dengan dua fitur dan tiga kelas, T-SNE tidak akan dapat memisahkan kelas-kelas yang linear. Alasan lainnya adalah karena T-SNE lebih fokus pada memvisualisasikan struktur lokal dalam data daripada mempertahankan varians global.
Perbedaan antara PCA dan T-SNE
- Linearity: PCA (Principal Component Analysis) adalah teknik linear, sehingga algoritma tersebut hanya dapat menemukan hubungan yang linear antar fitur. T-SNE, pada sisi lain, adalah teknik non-linear yang dapat memvisualisasikan struktur lokal dalam data.
- Preserved Information: PCA lebih fokus pada mempertahankan varians global dalam data, sedangkan T-SNE lebih fokus pada memvisualisasikan struktur lokal dan kelas-kelas dalam data.
- Computational Complexity: PCA adalah teknik yang efisien komputasi dan dapat digunakan untuk dataset yang besar, sementara T-SNE memiliki kompleksitas komputasi yang lebih tinggi dan lebih cocok untuk dataset yang kecil hingga sedang.
Kapan menggunakan PCA dan T-SNE
- PCA: Gunakan PCA jika Anda ingin mempertahankan varians global dalam data dan Anda butuh teknik yang efisien komputasi.
- T-SNE: Gunakan T-SNE jika Anda ingin memvisualisasikan struktur lokal dan kelas-kelas dalam data, terutama untuk dataset kecil hingga sedang.
Kesimpulan
PCA dan T-SNE adalah dua teknik pengurangan dimensi yang berbeda dengan karakteristik yang unik. PCA cocok untuk mempertahankan varians global efisien, sementara T-SNE lebih cocok untuk memvisualisasikan struktur lokal dan kelas-kelas dalam data. Dengan memahami perbedaan antara dua teknik ini, Anda dapat meningkatkan analisis data dan tugas machine learning Anda.