Matris adalah alat yang sangat powerful dalam statistika dan analisis data. Dalam regresi linier, matris digunakan untuk mewakili koefisien pengganggu dan koefisien slope. Pada bagian ini, kita akan membahas beberapa hasil matris penting dalam regresi linier.
Estimasi Koefisien dengan Matris
Pada tahap awal, kita memiliki dataset Soap Suds yang memuat variabel independen soap dan dependen suds. Untuk mengestimasi koefisien slope dan intercept, kita menggunakan rumus matris berikut:
(b=(X^{'}X)^{-1}X^{'}Y)
Dengan menggunakan nilai X dan Y dari dataset Soap Suds, kita mendapatkan estimasi koefisien sebagai berikut:
(b=\begin{bmatrix}
4.4643 & -0.78571\
-0.78571& 0.14286
\end{bmatrix}\begin{bmatrix}
347\
1975
\end{bmatrix}=\begin{bmatrix}
-2.67\
9.51
\end{bmatrix})
Dengan demikian, koefisien slope adalah -2.67 dan koefisien intercept adalah 9.51.
Matris Hat
Matris hat yang sangat penting dalam regresi linier adalah matris (H = X(X^{'}X)^{-1}X^{'}). Matris ini memungkinkan kita untuk membuat prediksi nilai Y yang paling mungkin berdasarkan X dan Y.
Ketergantungan Linear
Ketergantungan linear adalah fenomena di mana dua atau lebih kolom dalam matris A tidak independen. Kolom-kolon tersebut dapat ditulis sebagai linear combination dari kolom lainnya. Dalam contoh, kolom ketiga dalam matris A:
(A=\begin{bmatrix}
1& 2 & 4 &1 \
2 & 1 & 8 & 6\
3 & 6 & 12 & 3
\end{bmatrix})
adalah linearly dependent karena dapat ditulis sebagai 4 kali kolom pertama.
Dampak Ketergantungan Linear
Ketergantungan linear antara kolom-kolon dalam matris X dapat menyebabkan kesulitan dalam mengestimasi koefisien slope dan intercept. Jika beberapa kolom dalam matris X tidak independen, maka koefisien yang diperoleh tidak unik dan tidak akurat.
Contoh, jika kita memiliki dataset Soap Suds dengan dua variabel independen soap1 dan soap2, serta variabel dependen suds. Jika kita mencoba memasukkan kedua variabel independen ke dalam model regresi, maka software Minitab akan mengeluarkan pesan error:
soap2 is highly correlated with other X variables
soap2 has been removed from the equation
Dalam kesimpulan, ketergantungan linear antara kolom-kolon dalam matris X dapat menyebabkan kesulitan dalam mengestimasi koefisien slope dan intercept. Oleh karena itu, kita harus memastikan bahwa variabel-variabel independen tidak terkait sangat erat sebelum mencoba mengestimasi model regresi.