Mengidentifikasi dan Mengungkapkan Outliers dari Diagram Skalar

Mengidentifikasi dan Mengungkapkan Outliers dari Diagram Skalar

Pada artikel ini, kita akan belajar bagaimana mengidentifikasi dan mengungkapkan outliers dari diagram skalar. Diagram skalar adalah salah satu cara untuk memvisualisasikan data yang memiliki variabel dependen dan independen. Diagram skalar dapat digunakan untuk menemukan pola-pola dalam data, termasuk outliers.

Menggunakan Panduan untuk Mengidentifikasi Outliers

Panduan pertama untuk mengidentifikasi outliers adalah dengan melihat diagram skalar secara visual. Jika kita melihat bahwa suatu data point tidak sesuai dengan pola yang lain, maka dapat dianggap sebagai outlier. Contohnya, pada diagram skalar di atas, dua buah data point yang berbeda dari pola lainnya dapat diidentifikasi sebagai outliers.

Menggunakan Python untuk Mengidentifikasi Outliers

Selain itu, kita juga dapat menggunakan Python untuk mengidentifikasi outliers dengan bantuan library pandas dan matplotlib. Berikut contoh bagaimana kita dapat melakukan hal tersebut:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Membuat dataset
df = pd.DataFrame({'CO2': {0: 549.5,
 1: 663.54166699999996,
 2: 830.41666699999996,
 3: 799.695652,
 4: 813.85000000000002,
 5: 769.58333300000004,
 6: 681.94117599999993,
 7: 653.33333300000004,
 8: 845.66666699999996,
 9: 436.08695700000004},
 'day': {0: 1, 1: 2, 2: 3, 3: 4, 4: 5, 5: 6, 6: 7, 7: 8, 8: 9, 9: 10}})

# Membuat array warna untuk mengidentifikasi outliers
colors = ['r' if n<750 else 'b' for n in df['CO2']]

# Melakukan scatter plot dengan warna yang sesuai
plt.scatter(df['day'],df['CO2'],c=colors)

Pada kode di atas, kita menggunakan fungsi if-else untuk membuat array warna berdasarkan nilai CO2. Jika nilai CO2 kurang dari 750, maka warnanya adalah merah (red), jika tidak maka warnanya adalah biru (blue). Kemudian, kita melakukan scatter plot dengan menggunakan library matplotlib dan memberikan warna yang sesuai.

Menggunakan np.where untuk Mengidentifikasi Outliers

Selain itu, kita juga dapat menggunakan fungsi np.where dari library numpy untuk mengidentifikasi outliers. Berikut contoh bagaimana kita dapat melakukan hal tersebut:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Membuat dataset
df = pd.DataFrame({'CO2': {0: 549.5,
 1: 663.54166699999996,
 2: 830.41666699999996,
 3: 799.695652,
 4: 813.85000000000002,
 5: 769.58333300000004,
 6: 681.94117599999993,
 7: 653.33333300000004,
 8: 845.66666699999996,
 9: 436.08695700000004},
 'day': {0: 1, 1: 2, 2: 3, 3: 4, 4: 5, 5: 6, 6: 7, 7: 8, 8: 9, 9: 10}})

# Membuat array warna untuk mengidentifikasi outliers
colors = np.where(df['CO2'] < 750, 'r', 'b')

# Melakukan scatter plot dengan warna yang sesuai
plt.scatter(df['day'],df['CO2'],c=colors)

Pada kode di atas, kita menggunakan fungsi np.where untuk membuat array warna berdasarkan nilai CO2. Jika nilai CO2 kurang dari 750, maka warnanya adalah merah (red), jika tidak maka warnanya adalah biru (blue). Kemudian, kita melakukan scatter plot dengan menggunakan library matplotlib dan memberikan warna yang sesuai.

Dengan demikian, kita dapat menggunakan berbagai cara untuk mengidentifikasi outliers dari diagram skalar. Namun, perlu diingat bahwa identifikasi outlier tidak hanya bergantung pada diagram skalar, tetapi juga pada konteks data dan tujuan analisis.