Korelasi adalah istilah yang digunakan dalam analisis data untuk mengetahui apakah ada hubungan antara dua variabel. Ada tiga jenis korelasi yang umum ditemukan: korelasi positif, korelasi negatif, dan tidak korelatif.
Korelasi Negatif
Korelasi negatif terjadi ketika satu variabel meningkat, maka variabel lainnya dapat diharapkan menurun. Contohnya, jika kita memiliki data tentang pengaruh cuaca terhadap penjualan sepatu, maka korelasi negatif dapat ditemukan bahwa saat cuaca mengalami perubahan, penjualan sepatu dapat menurun.
Tidak Korelatif
Korelasi tidak korelatif terjadi ketika dua variabel memiliki tidak ada efek yang signifikan satu sama lain. Artinya, perubahan pada variabel X tidak mempengaruhi Y.
Line of Best Fit & Strength of Correlation (R)
Saat menganalisis scatter plot, seringkali membantu menambahkan garis terbaik (Line of Best Fit) untuk visualisasi tingkat korelasi. Slope dari garis ini juga dapat memverifikasi apakah korelasi positif atau negatif. Tingkat korelasi tidak berada pada slope garis, tetapi seberapa dekat titik data terhadap garis terbaik.
Pearson's Linear Correlation Coefficient (R)
Berikut beberapa derajat atau tingkat korelasi dan bagaimana gambarannya. Beserta dengan grafik ini, Anda juga dapat melihat nilai R yang terkait dengan plot.
Nilai R adalah indikator kekuatan dan arah hubungan linear antara dua variabel. Nilai R berada dalam rentang +1 hingga -1, dengan +1 sebagai korelasi positif sempurna, -1 sebagai korelasi negatif sempurna, dan 0 sebagai tidak korelatif.
Perbedaan R & R2
Jika Anda seperti sebagian besar insinyur, Anda akan menciptakan scatter plot di Excel. Akan lebih baik jika Excel dapat menampilkan nilai R2 dan Anda mungkin bertanya-tanya apa perbedaannya antara R dan R2.
R = Nilai Korelasi
R2 = Koefisien Determinasi
Jadi, apakah R2 dan apa yang dikemukakan?
R2 mewakili persentase total variasi pada Y yang dapat dijelaskan oleh hubungan linear antara X dan Y. Contohnya, jika Anda memiliki nilai r sebesar 0,866, maka Anda dapat menghitung R2 = 0,75 dengan cara melalui penerapan nilai R. Maka, Anda dapat menerjemahkan data untuk berarti bahwa 75% dari variasi total pada Y dapat dijelaskan oleh hubungan linear antara X dan Y.
Analisis Korelasi Manual
Ada satu topik terakhir yang perlu dibahas dan itu adalah proses manual menentukan apakah korelasi (tidak kecauan, ingat) ada dalam data Anda.
Saya akan singkat dengan ini dan katakan bahwa saya belum pernah melakukan analisis ini karena saya selalu memiliki Excel untuk membantu saya menganalisis data. Tetapi, itu pasti sesuatu yang harus Anda ketahui.
Template Scatter Plot
Saya juga ingin memberikan link ke spreadsheet Excel ASQ untuk scatter plot. Sayangnya, spreadsheet ini lebih berfokus pada kalkulasi manual dan tidak termasuk informasi regresi.
Referensi & Link Online
The Quality Toolbox – Nancy Tague
https://www.khanacademy.org/math/probability/regression
http://asq.org/learn-about-quality/cause-analysis-tools/overview/scatter.html
http://en.m.wikipedia.org/wiki/Scatter_plot
http://mste.illinois.edu/courses/ci330ms/youtsey/scatterinfo.html
http://en.wikipedia.org/wiki/Correlation_and_dependence
http://en.wikipedia.org/wiki/Anscombe%27s_quartet
http://en.wikipedia.org/wiki/Correlation_does_not_imply_causation