Scatter Plot adalah salah satu tool analisis data yang paling populer dalam Microsoft Excel. Tujuan utama dari scatter plot adalah untuk menampilkan insights dua atau tiga variabel dalam data Anda.
Ketika Anda menggunakan scatter plot dengan 2 variabel, Anda dapat melihat berbagai jenis hubungan antara data points. Beberapa contoh hubungan yang dapat terlihat adalah:
- Hubungan positif, di mana data points sloping upwards dari sudut kiri bawah chart ke atas-kanan.
- Hubungan negatif, di mana data points sloping downwards dari sudut kiri atas chart ke bawah-kiri.
- Tidak ada hubungan, di mana data tidak memiliki korrelasi positif atau negatif (null).
Sementara itu, jika Anda menggunakan scatter plot dengan 3 variabel, Anda dapat mencapai beberapa hal seperti:
- Identifikasi hubungan korrelasional: Scatter Plot dapat membantu Anda menemukan hubungan antara tiga variabel dalam data.
- Identifikasi pola data: Scatter Plot juga dapat digunakan untuk menampilkan trend dan pola data.
Namun, membuat scatter plot dengan 3 variabel di Excel dapat menjadi sedikit rumit karena Microsoft Excel tidak memiliki fitur built-in untuk membuat chart tersebut. Namun, Anda dapat mengatasi tantangan ini dengan mengunduh dan menginstal add-in yang namanya ChartExpo. Add-in ini dapat membantu Anda memahami scatter plot dengan 3 variabel.
Membuat Scatter Plot dengan 2 atau 3 Variabel di Python
Jika Anda menggunakan Python sebagai bahasa pemrograman, maka Anda dapat membuat scatter plot dengan menggunakan library seperti matplotlib. Berikut contoh kode yang Anda dapat gunakan:
import pandas as pd
import matplotlib.pyplot as plt
# Membuat data frame
df_results = pd.DataFrame(data={})
df_results['names'] = ['James', 'Lucas', 'Henry', 'James', 'Lucas', 'Henry']
df_results['try_name'] = ["try_1", "try_1", "try_1", "try_2", "try_2", "try_2"]
df_results['score'] = [0.7, 0.9, 0.3, 0.91, 0.1, 0.2]
# Membuat scatter plot
plt.scatter(df_results['try_name'], df_results['score'], c=df_results['names'])
# Menambahkan judul chart
plt.title('Scatter Plot dengan 3 Variabel')
# Meningkatkan ukuran font title
plt.rcParams['font.size'] = 14
# Menampilkan chart
plt.show()
Dalam contoh kode di atas, Anda dapat menggunakan variabel names
sebagai warna untuk mewakili tiap-tiap point dalam scatter plot.
Membuat Scatter Plot dengan 3 Variabel dan Mewakili Kategori
Jika Anda memiliki data kategori yang Anda ingin gunakan untuk mewakili warna pada scatter plot, maka Anda dapat menggunakan kode berikut:
import pandas as pd
import matplotlib.pyplot as plt
# Membuat data frame
df_results = pd.DataFrame(data={})
df_results['names'] = ['James', 'Lucas', 'Henry', 'James', 'Lucas', 'Henry']
df_results['try_name'] = ["try_1", "try_1", "try_1", "try_2", "try_2", "try_2"]
df_results['score'] = [0.7, 0.9, 0.3, 0.91, 0.1, 0.2]
df_results['category'] = ['A', 'B', 'C', 'A', 'B', 'C']
# Membuat scatter plot
plt.scatter(df_results['try_name'], df_results['score'], c=df_results['category'])
# Menambahkan judul chart
plt.title('Scatter Plot dengan 3 Variabel')
# Meningkatkan ukuran font title
plt.rcParams['font.size'] = 14
# Menampilkan chart
plt.show()
Dalam contoh kode di atas, Anda dapat menggunakan variabel category
sebagai warna untuk mewakili tiap-tiap point dalam scatter plot.