Probabilitas plot adalah teknik untuk membandingkan distribusi 2 dataset (setiap dataset mungkin bersifat teoretis atau empiris, tetapi yang paling umum adalah 1 empiris vs 1 teoritis).
QQ-plot dan PP-plot adalah dua cabang dari Probability plot (tetapi perlu berhati-hati, karena beberapa literatur memadukan keduanya).
QQ-plot berhubungan dengan fungsi kepadatan probabilitas, sementara PP-plot berhubungan dengan fungsi distribusi kumulatif.
Dalam hal karakteristiknya, QQ-plot memiliki deviasi yang lebih tinggi di ujung-ujung (yaitu, QQ-plot memiliki titik-titik yang kurang pada dua ujung), sedangkan untuk PP-plot, deviasi yang lebih tinggi terjadi di tengah. Dan sebagai peneliti sering memberikan perhatian lebih kepada ujung-ujung, maka QQ-plot lebih populer dalam praktek.
Untuk membuat QQ-plot, kita dapat menggunakan probplot dari scipy.stats atau qqplot dari statsmodel, karena mereka menghasilkan hasil yang komparabel.
Referensi:
- Wikipedia tentang Probability plot: [link]
- Wikipedia tentang PP-plot: [link]
- Wikipedia tentang QQ-plot: [link]
- Artikel di Pythonhealthcare tentang QQ-plots: [link]
- scipy.stats.probplot: [link]
- qqplot dari statsmodel: [link]
- Perbandingan P-P Plots dan Q-Q Plots
P-P plot membandingkan fungsi distribusi kumulatif empiris dengan fungsi distribusi kumulatif teoritis F(·). Q-Q plot membandingkan kuartil data dengan kuartil dari distribusi teoritis yang baku dari keluarga distribusi yang dipesan. Ada tiga perbedaan penting dalam cara P-P plots dan Q-Q plots dibuat dan diinterpretasikan:
- Konstruksi Q-Q plot tidak memerlukan parameter lokasi atau skala F(·) untuk diketahui.
- Kuartil teoritis dihitung dari distribusi baku dalam keluarga yang dipesan. Pola titik linear menunjukkan bahwa keluarga teoritis tersebut deskripsi data dengan baik, dan parameter lokasi dan skala dapat diestimasi secara visual sebagai intersep dan slope pola linear.
- P-P plot memerlukan parameter lokasi dan skala F(·) untuk dihitung nilai cdf pada nilai-nilai data yang tersimpan.
Konsekuensi ini adalah:
- Anda harus menggunakan Q-Q plot jika tujuan Anda adalah membandingkan distribusi data dengan keluarga distribusi yang berbeda hanya dalam lokasi dan skala, terutama jika Anda ingin mengestimasi parameter lokasi dan skala dari plot.
- Kelebihan P-P plots adalah bahwa mereka sangat spesifik dalam wilayah kepadatan probabilitas yang tinggi, karena pada wilayah tersebut fungsi distribusi kumulatif empiris dan teoritis berubah lebih cepat daripada wilayah kepadatan probabilitas yang rendah. Contohnya, jika Anda membandingkan distribusi data dengan distribusi normal tertentu, perbedaan di tengah dua distribusi menjadi jelas pada P-P plot.
Referensi:
- Gnanadesikan (1997)
- Wilk dan Gnanadesikan (1968)
- Membahas Plot Probabilitas: Apa mereka, bagaimana cara mengimplementasikan mereka dalam… | by Eryk Lewinson | Towards Data Science
Sumber
Apa mereka, bagaimana cara mengimplementasikan mereka dalam Python dan bagaimana cara memahami hasilnya
- Pengenalan
Anda mungkin telah menjumpai salah satu tipe plot probabilitas – Q-Q plots – saat bekerja dengan regresi linear. Salah satu asumsi regresi yang perlu dicek setelah model dipasang adalah apakah residuals mengikuti distribusi Normal (Gaussian). Dan hal ini dapat dikonfirmasi secara visual dengan menggunakan Q-Q plot seperti contoh di bawah.
Contoh Q-Q plot
Untuk memahami konsep plot probabilitas, mari kita jelajahi beberapa definisi dari teori peluang/statistika:
- Fungsi kepadatan probabilitas (PDF) – fungsi yang memungkinkan kita menghitung probabilitas mencari variabel acak dalam rentang mana-mana yang termasuk ruang contoh. Perlu diingat bahwa probabilitas variabel acak kontinu mengambil nilai pada ujung-ujung adalah 0.
- Fungsi distribusi kumulatif (CDF) – fungsi yang memungkinkan kita menghitung nilai probabilitas mencari variabel acak dalam rentang mana-mana yang termasuk ruang contoh.
Dalam hal plot probabilitas, kita dapat menggunakan Q-Q plot untuk membandingkan distribusi data dengan distribusi teoritis. Dengan demikian, kita dapat mengetahui apakah data mengikuti distribusi teoritis dan sebagainya.
Itu adalah salah satu cara kita dapat menggunakan plot probabilitas untuk memahami data. Dalam artikel ini, kita akan membahas lebih lanjut tentang Q-Q plots dan P-P plots, serta bagaimana cara mereka digunakan dalam analisis data.