Data preparation atau persiapan data adalah langkah-langkah yang dilakukan untuk mempersiapkan data mentah sebelum digunakan dalam analisis dan pemodelan. Tujuannya adalah memastikan bahwa data yang akan digunakan adalah bersih, konsisten, dan dalam format yang sesuai untuk analisis atau pelatihan model pembelajaran mesin. Proses ini melibatkan berbagai tahapan, seperti pembersihan data, transformasi data, dan pengurangan dimensi.
Contoh kode untuk Data Preparation dalam Python menggunakan library pandas:
import pandas as pd
# Membaca data dari file CSV
data = pd.read_csv('data.csv')
# Pembersihan data: menghapus entri duplikat dan menangani nilai yang hilang
data.drop_duplicates(inplace=True)
data.dropna(inplace=True)
# Transformasi data: mengubah format tanggal, mengonversi variabel kategorikal menjadi numerik, dll.
data['tanggal'] = pd.to_datetime(data['tanggal'])
data['jenis_kelamin'] = data['jenis_kelamin'].map({'Laki-laki': 1, 'Perempuan': 0})
# Penggabungan data (jika diperlukan): menggabungkan beberapa sumber data menjadi satu dataset
data1 = pd.read_csv('data1.csv')
data2 = pd.read_csv('data2.csv')
merged_data = pd.merge(data1, data2, on='id')
# Menyimpan data yang telah diproses ke dalam file baru
data.to_csv('data_cleaned.csv', index=False)
Data visualization atau visualisasi data adalah proses penyajian data dalam bentuk grafik atau gambar, sehingga informasi yang terdapat dalam data dapat lebih mudah dipahami dan dianalisis. Visualisasi data membantu dalam mengidentifikasi pola, tren, dan anomali dalam data, serta mempermudah komunikasi hasil analisis.
Contoh kode untuk Data Visualization dalam Python menggunakan library matplotlib:
import matplotlib.pyplot as plt
import seaborn as sns
# Memvisualisasikan distribusi umur dalam data
plt.figure(figsize=(8, 6))
sns.histplot(data['umur'], bins=20, kde=True, color='skyblue')
plt.title('Distribusi Umur')
plt.xlabel('Umur')
plt.ylabel('Frekuensi')
plt.show()
# Memvisualisasikan hubungan antara dua variabel dengan scatter plot
plt.figure(figsize=(8, 6))
sns.scatterplot(x='tinggi', y='berat', data=data, hue='jenis_kelamin', palette='Set1')
plt.title('Hubungan Tinggi dan Berat Badan')
plt.xlabel('Tinggi (cm)')
plt.ylabel('Berat (kg)')
plt.legend(title='Jenis Kelamin')
plt.show()
Komentar
Posting Komentar