Analisis Korelasi dan Visualisasi Data menggunakan Python

Analisis Korelasi dan Visualisasi Data menggunakan Python

Dalam analisis data, korelasi antar variabel adalah salah satu langkah penting dalam memahami hubungan antara beberapa variabel. Dalam artikel ini, kita akan membahas bagaimana cara membuat heatmap korelasi menggunakan Python dan library Seaborn.

Membuat Korelasi Matrix

Pertama-tama, kita perlu membuat matrix korelasi dari data yang kita miliki. Berikut adalah contoh code untuk membuat matrix korelasi:

import pandas as pd
import numpy as np

# Data example
data = [
 [-0.24, -0.14, 0.17, -0.28, 0.41],
 [-0.14, 0.22, -0.03, -0.24, 1.00],
 [-0.33, -0.11, 0.31, -0.14, -0.16],
 [0.22, -0.31, -0.22, 0.17, -0.60],
 [-0.31, 0.06, -0.18, -0.28, 0.11]
]

# Membuat dataframe
df = pd.DataFrame(data, columns=['Water', 'SP', 'CoarseAgg', 'FineAgg', 'Strength'])

# Membuat korelasi matrix
cormat = df.corr()

Membuat Heatmap Korelasi

Setelah membuat korelasi matrix, kita dapat menggunakan library Seaborn untuk membuat heatmap. Berikut adalah contoh code:

import seaborn as sns
import matplotlib.pyplot as plt

# Membuat heatmap korelasi
plt.figure(figsize=(10,8))
sns.set()
sns.heatmap(cormat, annot=True, cmap='coolwarm', square=True)
plt.show()

Dalam contoh di atas, kita menggunakan fungsi heatmap() dari library Seaborn untuk membuat heatmap korelasi. Fungsi ini memerlukan beberapa parameter, yaitu:

  • cormat: Korelasi matrix yang akan digunakan.
  • annot=True: Membuat label pada setiap sel heatmap.
  • cmap='coolwarm': Menentukan warna yang akan digunakan untuk heatmap (dalam contoh di atas, kita menggunakan skala "coolwarm").
  • square=True: Membuat ukuran heatmap menjadi sama dalam horizontal dan vertical.

Visualisasi Data dengan Scatter Matrix

Selain membuat heatmap korelasi, kita juga dapat menggunakan fungsi scatter_matrix() dari library Pandas untuk membuat scatter matrix. Fungsi ini digunakan untuk visualisasi hubungan antara beberapa variabel. Berikut adalah contoh code:

import pandas as pd

# Data example
data = [
 [-0.24, -0.14, 0.17, -0.28, 0.41],
 [-0.14, 0.22, -0.03, -0.24, 1.00],
 [-0.33, -0.11, 0.31, -0.14, -0.16],
 [0.22, -0.31, -0.22, 0.17, -0.60],
 [-0.31, 0.06, -0.18, -0.28, 0.11]
]

# Membuat dataframe
df = pd.DataFrame(data, columns=['Water', 'SP', 'CoarseAgg', 'FineAgg', 'Strength'])

# Membuat scatter matrix
pd.plotting.scatter_matrix(df, alpha=0.2)
plt.show()

Dalam contoh di atas, kita menggunakan fungsi scatter_matrix() untuk membuat scatter matrix. Fungsi ini memerlukan beberapa parameter, yaitu:

  • df: Dataframe yang akan digunakan.
  • alpha=0.2: Membuat transparency pada scatter plot (dalam contoh di atas, kita menggunakan nilai 0.2).
  • plt.show(): Menampilkan hasil dari fungsi scatter_matrix().

Dengan demikian, kita dapat membuat visualisasi data yang lebih baik dengan menggunakan heatmap korelasi dan scatter matrix.