Pada umumnya, kita hanya berbicara tentang distribusi normal karena kita memiliki konsep indah yang disebut aturan 68–95–99.7. Konsep ini sangat cocok dengan distribusi normal dan memberikan gambaran bagaimana banyak data terdistribusi dalam rentang standar deviasi pertama, kedua, dan ketiga dari mean. Dengan demikian, mengetahui apakah suatu distribusi adalah normal atau tidak membuka pintu-pintu eksperimen dengan data.
Namun, ada distribusi lain yang juga penting untuk dipahami, seperti uniform distribution, exponential distribution, atau bahkan Pareto distribution. Kita dapat mengetahui jenis distribusi ini hanya dengan melihat plot Q-Q (quantile-quantile) yang sangat membantu dalam menganalisis dan membandingkan dua distribusi probabilitas.
Apa itu Plot Q-Q?
Plot Q-Q adalah grafik yang digunakan untuk menganalisis dan membandingkan dua distribusi probabilitas dengan mengplot quantilnya terhadap satu sama lain. Jika dua distribusi yang kita bandingkan sebenarnya sama, maka titik-titik pada plot Q-Q akan berada pada garis lurus y = x. Plot Q-Q dapat menunjukkan apakah suatu data set adalah normal atau tidak.
Bagaimana Cara Menggunakan Plot Q-Q?
Kita plot quantil teoritis, yang dikenal sebagai variate standar normal (distribusi normal dengan mean 0 dan standar deviasi 1), pada sumbu x, sedangkan nilai-nili yang diurutkan untuk variabel acak, yang kita ingin tahu apakah tidak adalah distribusi Gaussian, pada sumbu y. Hal ini memberikan struktur garis lurus yang halus dari setiap titik yang diplotkan.
Sekarang, kita harus fokus pada ujung-ujung garis lurus. Jika titik-titik di ujung-ujung curve tidak jatuh pada garis lurus tetapi tersebar secara signifikan dari posisi tersebut, maka kita tidak dapat mengatakan bahwa data set adalah normal.
Jika semua titik yang diplotkan pada grafik sempurna berada pada garis lurus, maka kita dapat dengan pasti mengatakan bahwa distribusi ini adalah normal karena sepenuhnya terlihat seimbang dengan variate standar normal, yaitu konsep sederhana dari plot Q-Q.
Apa itu Plot Q-Q yang Skewed?
Plot Q-Q juga digunakan untuk mengetahui skewness (ukuran asimetris) suatu distribusi. Jika kita plot quantil teoritis pada sumbu x dan quantil sampel yang distribusinya kita ingin tahu pada sumbu y, maka kita akan melihat bentuk yang aneh pada plot Q-Q normal distribusi untuk skewness. Jika ujung bawah plot Q-Q ber-deviasi dari garis lurus tetapi ujung atas tidak, maka kita dapat dengan pasti mengatakan bahwa distribusi ini memiliki ekor panjang ke kiri (left-skewed) atau negatif skewed.
Sebaliknya, jika ujung atas plot Q-Q ber-deviasi dari garis lurus sementara ujung bawah mengikuti, maka curve memiliki ekor panjang ke kanan (right-skewed) atau positif skewed.
Apa itu Plot Q-Q yang Tailed?
Dengan cara yang sama, kita dapat membahas kurtosis (ukuran "ekor" suatu distribusi) dengan hanya melihat plot Q-Q. Distribusi yang memiliki ekor lebar akan memiliki kedua ujung plot Q-Q ber-deviasi dari garis lurus sementara pusatnya mengikuti garis lurus. Sebaliknya, distribusi yang memiliki ekor tipis akan membentuk plot Q-Q dengan deviasi yang sangat kecil atau tidak signifikan, sehingga memenuhi kualitas untuk distribusi normal.
Berapa Banyak Data Diperlukan untuk Plot Q-Q?
Perlu diingat bahwa ketika titik-titik data sedikit, plot Q-Q tidak berfungsi dengan tepat dan tidak dapat memberikan jawaban yang signifikan. Ketika kita memiliki jumlah titik data yang cukup banyak dan memplot plot Q-Q menggunakan set data yang besar, maka plot Q-Q tersebut dapat memberikan hasil yang signifikan untuk menarik kesimpulan tentang jenis distribusi.
Contoh Implementasi Plot Q-Q di Python
Berikut adalah contoh implementasi plotting plot Q-Q di Python:
import numpy as np
import matplotlib.pyplot as plt
# Generate random data
x = np.random.normal(0, 1, 1000)
# Calculate quantiles
q1 = np.percentile(x, 25)
q3 = np.percentile(x, 75)
mean = np.mean(x)
# Plot the distribution
plt.hist(x, bins=30, alpha=0.6, color='blue')
plt.axvline(q1, color='red', linestyle='dashed', linewidth=2)
plt.axvline(q3, color='red', linestyle='dashed', linewidth=2)
plt.axvline(mean, color='green', linestyle='solid', linewidth=2)
plt.title('Distribusi Random')
plt.show()
Kode di atas akan menghasilkan plot distribusi random dengan titik-titik median (q1 dan q3) serta mean.