Dalam bab ke-4 buku "Data Mining for the Masses", kita telah membahas tentang cara membuat matrix korrelasi pada dataset dengan menggunakan Rapidminer. Namun, dalam artikel ini, kita akan menjelaskan cara melakukan hal yang sama tetapi dengan menggunakan R.
1. Membuat Matrix Korrelasi
Dalam bagian ini, kita akan membuat matrix korrelasi pada dataset dengan menggunakan fungsi cor()
di R. Pertama-tama, kita harus memasukkan dataset ke dalam R dengan menggunakan perintah berikut:
data = read.csv('Chapter04DataSet.csv', sep='', header = TRUE)
Setelah itu, kita dapat menggunakan fungsi cor()
untuk membuat matrix korrelasi pada data frame:
> cor(data)
Kode di atas akan menghasilkan output sebagai berikut:
Insulation Temperature Heating_Oil Num_Occupants Avg_Age Home_Size
Insulation 1.0000000 -0.79369606 0.73609688 -0.01256684 0.64298171 0.20071164
Temperature -0.79369606 1.00000000 -0.77365974 0.01251864 -0.67257949 -0.21393926
Heating_Oil 0.73609688 -0.77365974 1.00000000 -0.04163508 0.84789052 0.38119082
Num_Occupants -0.01256684 0.01251864 -0.04163508 1.00000000 -0.04803415 -0.02253438
Avg_Age 0.64298171 -0.67257949 0.84789052 -0.04803415 1.00000000 0.30655725
Home_Size 0.20071164 -0.21393926 0.38119082 -0.02253438 0.30655725 1.00000000
Output di atas sama dengan yang ditampilkan dalam Gambar 4-4 buku.
2. Plot Korrelasi
Dalam bagian ini, kita akan membuat plot korrelasi antara atribut Insulation dan Heating Oil menggunakan fungsi plot()
di R. Kita dapat melakukan seperti berikut:
plot(data$Insulation, data$Heating_Oil, col="blue", type="p", pch=20, cex=.5)
Perintah di atas akan menghasilkan plot sebagai berikut:
3. Menambahkan Jitter ke Axis X
Kita dapat menambahkan jitter ke axis x untuk mencegah overplotting dengan menggunakan perintah berikut:
plot(jitter(data$Insulation), data$Heating_Oil, col="blue", type="p", pch=20, cex=.5)
4. Membuat Plot yang Lebih Terstruktur
Kita dapat membuat plot yang lebih terstruktur dengan menciptakan subset data frame dengan atribut-atribut yang kita inginkan:
dd <- data.frame(jitter(data$Insulation), data$Heating_Oil)
Lalu, kita dapat menggunakan perintah berikut untuk membuat plot:
plot(dd)
5. Membuat Plot 3D
Kita dapat membuat plot 3D dengan menggunakan library "scatterplot3D" di R. Kita dapat menginstal library dengan menggunakan perintah berikut:
install.packages("scatterplot3d")
Setelah itu, kita dapat memuat library dan membuat plot 3D seperti yang ditampilkan dalam Gambar 4-9 buku:
library(scatterplot3d)
scatterplot3d(data$Insulation, data$Heating_Oil, data$Temperature, pch=20, highlight.3d=T)
Perintah di atas akan menghasilkan plot 3D sebagai berikut:
Referensi
- Buku: "Data Mining for the Masses"
- Library: "scatterplot3D"