Mengidentifikasi korelasi antar atribut pada dataset adalah salah satu langkah penting dalam preprocessing data. Salah satu cara untuk memahami korelasi antar atribut adalah dengan membuat plot scatter untuk setiap pasangan atribut.
Dalam artikel ini, kita akan membahas cara membuat matrix plot dari scatter plot menggunakan Pandas. Mari kita mulai!
Langkah 1 – Impor Library
Kita perlu mengimpor library Pandas dan Seaborn.
import pandas as pd
import seaborn as sb
Pandas digunakan untuk melakukan operasi matematika terhadap array, sedangkan Seaborn digunakan untuk memuat dataset.
Langkah 2 – Persiapan Data
Kita akan menggunakan dataset "tips" dari library Seaborn.
df = sb.load_dataset('tips')
Sekarang kita memiliki dataset yang siap digunakan.
Langkah 3 – Membuat Plot Scatter Matrix
Kita dapat membuat plot scatter matrix menggunakan fungsi pandas.plotting.scatter_matrix
.
pd.plotting.scatter_matrix(df[['total_bill', 'tip', 'size']], alpha=0.2)
Dalam contoh ini, kita membuat plot scatter matrix terhadap tiga kolom: "total_bill", "tip", dan "size".
Langkah 4 – Lihat Hasil
Sekarang kita dapat melihat hasil dari plot scatter matrix.
Kita dapat melihat plot scatter matrix terhadap tiga kolom. Dengan cara yang sama, kita dapat memeriksa korelasi antar atribut lainnya untuk mengetahui apakah ada hubungan yang signifikan.
Menggunakan Fungsi pandas.plotting.scatter_matrix
Fungsi pandas.plotting.scatter_matrix
memiliki beberapa parameter yang dapat diatur, seperti:
frame
: DataFrame yang akan digunakan sebagai input.alpha
: Jumlah transparansi yang akan diterapkan pada plot.figsize
: Ukuran gambar dalam inch.ax
: Axis Matplotlib yang akan digunakan untuk membuat plot.grid
: Apakah grid akan ditampilkan atau tidak.diagonal
: Jenis plot yang akan digunakan untuk diagonal, dapat dipilih antara "hist" dan "kde".marker
: Tipe marker yang akan digunakan pada plot.
Fungsi ini juga memiliki beberapa keyword argument yang dapat diatur, seperti density_kwds
dan hist_kwds
, yang dapat digunakan untuk menyesuaikan penampilan plot.
Dengan menggunakan fungsi pandas.plotting.scatter_matrix
, kita dapat dengan mudah membuat matrix plot dari scatter plot dan memahami korelasi antar atribut pada dataset.