Analisis Data Automobile Dataset dengan Menggunakan Scatterplot

Analisis Data Automobile Dataset dengan Menggunakan Scatterplot

Pada artikel ini, kami akan melakukan analisis data menggunakan dataset "Automobile Dataset" yang tersedia di Kaggle. Dataset ini berisi tentang harga mobil yang dipengaruhi oleh 25 variabel. Dalam analisis ini, kita akan menggunakan scatterplot untuk visualisasi data dan menemukan hubungan antara dua variabel.

Mengunduh File Dataset

Dataset yang digunakan adalah "Automobile Dataset" yang dapat diakses di link berikut: https://www.kaggle.com/datasets/toramky/automobile-dataset. Setelah file dataset terdownload, kita akan memiliki sebuah folder yang didalamnya terdapat file "Automobile dataset".

Merapikan Data

Setelah filenya dibuka, kita dapat melihat tampilan excel seperti berikut:

Langkah selanjutnya ialah merapikan data supaya terlihat lebih rapi dengan menekan "CTRL + A" dan klik 2 kali di samping kolom A. sehingga akan tampak seperti berikut:

Visualisasi Data dengan Scatterplot

Pilih salah satu variabel yang ingin digunakan untuk melakukan visualasi, disini saya mengambil variabel Engine Size dan Price untuk dilakukan visualisasi, yaitu dengan membuat sheet baru lalu copy kolom di Engine Size dan Price dan paste kan di sheet baru tersebut. Sehingga akan tampil seperti berikut:

Selanjutnya, lakukan pembersihan data pada data yang tidak lengkap yang hanya berisi "?", dengan menghapus baris tersebut.

Setelah datanya sudah bersih, barulah kita bisa melakukan visualisasi data. Untuk melakukannya, klik semua data yang ada di kolom Engine size dan Price, lalu pilih Insert > pilih Scatterplot. Lalu untuk melihat Korelasinya, pilih design > klik Quick Layout yang ke-9.

Dari data ini, kita dapat lihat bahwa R2 bernilai 0.761

Selanjutnya, untuk melihat korelasinya, kita dapat menggunakan rumus CORREL di Excel. Seperti berikut:

Dari visualisasi menggunakan scatter plot di atas, kita menemukan bahwa semakin tinggi Engine Size maka harga mobilnya semakin naik, hal ini berarti Engine Size dan Price memiliki korelasi yang positif. Untuk seberapa besar korelasi tersebut, kita dapat mengetahuinya di nilai CORREL sebesar 0.87 yang menandakan bahwa hubungan antara Engine Size dan Price sangat kuat.

Visualisasi Data dengan Scatterplot (Highway-mpg dan Price)

Buat sheet baru, lalu copy kolom Highway-mpg dan price dan tempelkan di sheet tersebut. Lalu lakukan visualisasi seperti langkah-langkah sebelumnya.

R2 = 0.4966
R = -0.70469

Dari visualisasi, kita menemukan bahwa kurva nya menurun dari kiri ke kanan, hal ini memberikan insigh kepada pembaca grafik bahwa semakin besar highway-mpg maka harga mobil semakin menurun, yang berarti hubungan antara highway-mpg dan price memiliki hubungan yang negatif. Hal ini dapat dilihat dari nilai CORREL yang menunjukkan nilai negatif.

Penggunaan Scatter Diagram

Diagram scatter dapat mengekspresikan hubungan antara dua faktor berdasarkan sekelompok titik data. Dari diagram ini, hubungan antara dua faktor dan korelasinya dapat dipelajari, misalnya hubungan sebab akibat. Diagram ini menggunakan dua variabel, satu independen dan satu dependen.

Contohnya menunjukkan hubungan positif antara kecepatan kendaraan dan jumlah kecelakaan.


Dalam artikel ini, kita telah melakukan analisis data menggunakan dataset "Automobile Dataset" dengan mengunakan scatterplot. Dari hasil analisis, kita menemukan bahwa Engine Size dan Price memiliki korelasi yang positif, sedangkan highway-mpg dan price memiliki hubungan yang negatif. Dengan demikian, kita dapat mengetahui hubungan antara dua variabel yang dipengaruhi oleh beberapa faktor lainnya.

References

  1. Kaggle – Automobile Dataset (https://www.kaggle.com/datasets/toramky/automobile-dataset)
  2. Excel – CORREL function (https://support.microsoft.com/en-us/office/correl-function-0f3c7f9d-f5e4-41a3-be56-a3f4da95d1ad)

Note: This article is written in Indonesian language and may not be fully translated by machine translation tools.

Leave a comment