Dalam analisis statistik dan machine learning, metode Linear Discriminant Analysis (LDA) adalah salah satu algoritma yang paling umum digunakan. Salah satu bagian penting dalam LDA adalah penghitungan sum of squares, yaitu total sum of squares (T), sum of squares antara kelas (B), dan sum of squares dalam kelas (W). Dalam artikel ini, kita akan membahas tentang definisi dari T, B, dan W, serta generalisasi ke kasus multivariate.
Definisi Total Sum of Squares
Pertama-tama, mari kita lihat definisi T, yang didefinisikan sebagai:
$$T = \sum_{ij} (x_{ij} – \bar x)^2$$
di mana $x_{ij}$ adalah nilai varian variabel terhadap kelas ke-$i$ dan sample ke-$j$, sedangkan $\bar x$ adalah rata-rata overall.
Definisi Within-Class Sum of Squares
Kemudian, mari kita lihat definisi W, yang didefinisikan sebagai:
$$W = \sum_{ij} (x_{ij} – \bar x_i)^2$$
di mana $\bar x_i$ adalah rata-rata kelas ke-$i$, dan $x_{ij}$ adalah nilai variabel terhadap kelas ke-$i$ dan sample ke-$j`.
Definisi Between-Class Sum of Squares
Sekarang, mari kita lihat definisi B, yang didefinisikan sebagai:
$$B = \sum_i n_i (\bar x_i – \bar x)^2$$
di mana $n_i$ adalah ukuran kelas ke-$i$, dan $\bar x$ adalah rata-rata overall.
Generalisasi Ke Kasus Multivariate
Dalam kasus multivariate, definisi T, B, dan W dapat diumpankan dengan menggantikan semua variabel skalar menjadi matriks. Oleh karena itu, formula LDA yang paling umum digunakan adalah:
$$\mathbf{w}^\top \mathbf{T}\mathbf{w} = \mathbf{w}^\top \mathbf{B}\mathbf{w} + \mathbf{w}^\top \mathbf{W}\mathbf{w}$$
di mana $\mathbf{w}$ adalah vektor proyeksi, dan $\mathbf{T}$, $\mathbf{B}$, dan $\mathbf{W}$ adalah matriks scatter total, antara kelas, dan dalam kelas.
Keterbatasan Definisi B
Namun, definisi B yang paling umum digunakan tidaklah selalu sesuai. Jika ukuran kelas sangat berbeda, maka definisi B dapat terdominati oleh kelas-kelas besar, sehingga LDA menjadi tidak efektif dalam mengidentifikasi proyeksi yang baik.
Definisi Alternative
Untuk mengatasi masalah ini, kita dapat menggunakan definisi alternative:
$$\mathbf{B}^* = \bar n \sum_i (\bar{\mathbf{x}}_i – \bar{ \mathbf{x}}^)(\bar{\mathbf{x}}_i – \bar{\mathbf{x}}^)^\top,$$
di mana $\bar{\mathbf{x}}$ adalah rata-rata overall, dan $\bar n$ adalah rata-rata ukuran kelas. Definisi ini dapat membantu mengatasi masalah unbalancedness dalam data.
Penghitungan Total Sum of Squares
Untuk menghitung total sum of squares, kita dapat menggunakan formula:
$$\mathbf{T}^* = \bar n \sum_{i} \frac{1}{n_i} \sum_j (\mathbf{x}{ij} – \bar{\mathbf{x}}^*)(\mathbf{x}{ij} – \bar{\mathbf{x}}^*)^\top,$$
di mana $\bar{\mathbf{x}}$ adalah rata-rata overall.
Dalam penutup, definisi T, B, dan W memainkan peran penting dalam LDA. Penghitungan yang tepat dapat membantu menghasilkan proyeksi yang lebih efektif.