Sebagai alat statistik yang sangat sederhana, scatter diagram digunakan untuk menampilkan hubungan antara dua variabel. Diagram ini sering dikombinasikan dengan garis regresi linier yang digunakan untuk memasukkan model antara dua variabel. Untuk menjelaskan hal ini, saya mengumpulkan data dari perjalanan ke La Brea Tar Pits.
La Brea Tar Pits, yang terletak di Los Angeles, adalah formasi alamiah yang memiliki sumbat-sumbat lumpur yang membentuk trapes untuk binatang-binatang yang tidak sengaja masuk ke dalam lumpur. Sejak tahun 1940-an, lumpur ini telah diteliti dan diperluas, sehingga menemukan banyak fosil, termasuk Mammoths, Wolf, Bear, dan beberapa hewan lain seperti Singa Amerika dan Camel Amerika.
Banyak kegiatan saat ini dan penelitian berfokus pada Pit 91. Pada kunjungan saya ke La Brea, para ilmuwan dan peneliti sedang bekerja di Pit 91. Berikut adalah foto Pit 91, serta data yang saya pilih untuk mempresentasikan diagram scatter.
Dalam gambar, jumlah spesimen yang ditemukan tahun demi tahun dipresentasikan. Data ini dapat dilihat dalam bentuk tabel sebagai berikut:
Tahun | Jumlah Spesimen |
---|---|
2004 | 4,452 |
2005 | 5,826 |
2006 | 1,189 |
2007 | 3,388 |
Diagram scatter sederhana mempresentasikan titik di mana setiap tahun bertemu dengan jumlah spesimen yang dikumpulkan pada tahun itu.
Fitur lain dari diagram scatter adalah kemampuan untuk dilengkapi dengan regresi linier sederhana. Dalam Microsoft Excel, hal ini dapat dilakukan dengan menambahkan garis trendline. Hasilnya adalah plot berikut:
Banyak orang bertanya bagaimana garis tersebut dihitung dan apa artinya. Garis ini adalah model yang berasal dari regresi linier sederhana data. Dasar garis ini adalah persamaan yang kita semua pelajari di sekolah menengah, yaitu y = mx + b, di mana y adalah jumlah spesimen dan x adalah tahun. Dalam kasus ini, persamaan untuk garis tersebut adalah y = 217,1x – 432,680 atau Jumlah Spesimen = 217,1*tahun-432,680.
Penghitungan garis tersebut sedikit lebih kompleks. Nilai-nilai m dan b (slope dan intercept) dihitung dari data menggunakan regresi linier sederhana.
Persamaan ini memastikan bahwa jarak setiap titik ke garis tersebut kuadrat minimum. Grafiknya dapat dilihat pada plot berikut:
Jarak setiap titik ke garis adalah kesalahan, yang dipresentasikan sebagai e1, e2, e3, dan e4. Garis regresi linier kembali nilai-nilai m (slope) dan b (intercept) yang mengurangi sumbu kesalahan kuadrat. Dapat dikatakan bahwa m dan b dihitung untuk mengurangi (e12+e22+e32+e42).
Nama lain untuk regresi linier sederhana adalah "regresi least squares", nama yang menjelaskan hasil alat tersebut.
Sementara memungkinkan untuk menaruh garis melalui hampir semua data, itu tidak berarti Anda harus melakukannya. Jika tidak ada hubungan antara tahun dan jumlah spesimen, maka kita tidak seharus-menggambarkan model yang menunjukkan bahwa ada.
Salah satu statistik yang komplementer dengan regresi adalah nilai p, kadang-kadang disebut nilai p (2-tail). Output regresi dari SPC XL, sebagai berikut, memiliki statistik regresi, termasuk nilai p untuk variabel Tahun.
Kita dapat yakin (1-nilai p)*100% bahwa perubahan pada tahun akan menimbulkan perubahan pada jumlah spesimen yang ditemukan. Nilai p untuk tahun adalah 0,461, yang berarti kita dapat yakin (1-0,461)*100% atau 54% bahwa perubahan pada tahun akan menimbulkan perubahan pada jumlah spesimen yang ditemukan. Dengan tingkat kepercayaan 54%, kita biasanya tidak menyimpulkan bahwa perubahan pada variabel tahun akan menimbulkan perubahan pada jumlah spesimen yang ditemukan.
Diagram scatter dengan model regresi adalah alat yang sangat baik untuk menampilkan hubungan antara dua variabel. Hasilnya adalah plot berikut:
Dengan demikian, diagram scatter dan garis regresi linier dapat membantu kita memahami hubungan antara dua variabel dan membuat keputusan yang lebih baik.