Dalam analisis data, salah satu langkah yang paling penting adalah memeriksa korelasi antara atribut. Salah satu cara untuk memahami korelasi ini adalah dengan menggambar matriks skenario menggunakan Pandas dan Matplotlib.
Pandas memiliki fungsi scatter_matrix()
yang dapat membantu kita dalam menciptakan matriks skenario untuk setiap pasang atribut numerik. Fungsi ini dapat digunakan untuk membuat plot untuk setiap atribut numerik terhadap atribut lainnya, serta histogram untuk setiap atribut.
Menggunakan Pandas dan Matplotlib
Berikut adalah langkah-langkah sederhana untuk menciptakan matriks skenario dengan Pandas dan Matplotlib:
- Memuat Bibliografi
Pertama-tama, kita perlu memuat bibliografi yang dibutuhkan. Dalam hal ini, kita akan menggunakan Pandas dan Matplotlib.
import pandas as pd
import matplotlib.pyplot as plt
from pandas.plotting import scatter_matrix
- Memuat Data
Kemudian, kita perlu memuat data dari file CSV. Kita akan menggunakan fungsiread_csv()
dari Pandas untuk memuat data.
data = pd.read_csv('housing.csv')
- Menggambar Matriks Skenario
Akhirnya, kita dapat menggambar matriks skenario menggunakan fungsiscatter_matrix()
dan Matplotlib.
features = ['median_house_value', 'housing_median_age', 'median_income']
scatter_matrix(data[features])
plt.show()
Output
Menggambar matriks skenario akan menampilkan plot untuk setiap pasang atribut numerik, serta histogram untuk setiap atribut. Dalam contoh di atas, kita dapat melihat bahwa median_income dan median_house_value memiliki korelasi yang cukup kuat.
Sumber
- Pandas documentation: https://pandas.pydata.org/docs/
- Matplotlib documentation: https://matplotlib.org/stable/index.html
- GeeksforGeeks: "Pair plots using Scatter matrix in Pandas" – https://www.geeksforgeeks.org/pair-plots-using-scatter-matrix-in-pandas/