Mengvisualisasikan Data dengan Variabel Continu dan Kategorik

Mengvisualisasikan Data dengan Variabel Continu dan Kategorik

Ketika kita memiliki data yang terdiri atas satu variabel yang kontinu dan lainnya yang kategorik, kita perlu menggunakan teknik visualisasi yang sesuai untuk menggambarkan hubungan antara kedua variabel tersebut. Salah satu cara yang umum digunakan adalah dengan membuat scatterplot.

Namun, dalam beberapa kasus, data yang memiliki hanya satu variabel yang kontinu tidak memerlukan scatterplot. Sebagai contoh, jika kita memiliki data yang terdiri atas median dan quartile, maka kita dapat menggunakan boxplot untuk menggambarkan distribusi data tersebut. Dalam R, kita dapat membuat boxplot dengan menggunakan fungsi boxplot.

Contoh:

boxplot(HZ ~ Condition, x)

Fungsi ini akan menampilkan statistik summarise (median, quartile) dari data HZ untuk setiap kelas kondisi.

Namun, jika kita ingin menggambarkan titik-titik asli (original points), maka kita perlu menggunakan fungsi lain, seperti dotchart.

dotchart(x$HZ, labels=x$Condition, col=as.numeric(x$Condition))

Namun, fungsi ini memiliki kelemahan, yaitu memuat setiap titik dengan baris baru. Oleh karena itu, kita perlu menggunakan workaround untuk menggambarkan titik-titik asli.

Contoh:

# Membuat plot kosong terlebih dahulu
plot(x$Condition, x$HZ, border="white")
# Menggabungkan titik-titik asli ke dalam plot
points(x$Condition, x$HZ, col=x$Condition)

Menggunakan qplot untuk Membuat Scatterplot

Dalam R, kita dapat menggunakan paket ggplot2 dan fungsi qplot untuk membuat scatterplot yang indah. Fungsi qplot memungkinkan kita untuk menggambar garis-garis, histogram, density plot, dan lain-lain.

Contoh:

# Instalasi paket ggplot2
install.packages("ggplot2")
# Load paket
library(ggplot2)
# Membuat scatterplot dengan qplot
qplot(x = A, y = B, data = M, color = I("blue"), size = I(5))

Fungsi qplot memerlukan beberapa parameter, seperti:

  • x: variabel x yang ingin digambarkan.
  • y: variabel y yang ingin digambarkan.
  • data: nama objek data frame yang berisi data.
  • color: warna yang akan digunakan untuk menggambar titik-titik asli.
  • size: ukuran simbol yang akan digunakan.

Dalam contoh di atas, kita menggunakan variabel A dan B sebagai variabel x dan y, serta objek M sebagai data frame. Kami juga menggunakan warna biru dan ukuran simbol 5 untuk menggambar titik-titik asli.

Menggambar Scatterplot dengan Kurva

Selain itu, kita dapat menggunakan fungsi qplot untuk membuat scatterplot yang memiliki kurva. Contoh:

qplot(A, B, data = M, xlab = "NUMBERS", ylab = "VERTICAL AXIS", color = I("blue"), size = I(1), geom = c("smooth"))

Fungsi ini akan menggambar scatterplot yang memiliki kurva yang sesuai dengan distribusi data. Kami dapat memilih ukuran simbol yang lebih besar untuk menghasilkan garis-garis yang lebih tebal.

Mengakhiri

Dalam postingan ini, kita telah belajar cara menggunakan R untuk mengvisualisasikan data yang terdiri atas satu variabel kontinu dan lainnya yang kategorik. Kita juga telah melihat contoh-contoh penggunaan fungsi boxplot dan qplot. Dalam postingan berikutnya, kita akan melanjutkan belajar tentang opsi-opsi yang tersedia dalam qplot.

Tentang Penulis

David Lillis adalah seorang ahli statistik yang telah mengajar R kepada banyak peneliti dan ahli statistik. Perusahaannya, Sigma Statistics and Research Limited, menyediakan instruksi online dan workshop face-to-face tentang R, serta jasa coding dalam R. David memegang gelar Ph.D. dalam aplikasi statistik.

Serien Tutorial R

Kami memiliki serien tutorial R yang lebih lanjut yang dapat membantu Anda untuk memahami lebih lanjut tentang bagaimana menggunakan R.

Leave a comment