Langsung ke konten utama

DATA PREPARATION & VISUALIZATION

  • Data Preparation

Data preparation atau persiapan data adalah langkah-langkah yang dilakukan untuk mempersiapkan data mentah sebelum digunakan dalam analisis dan pemodelan. Tujuannya adalah memastikan bahwa data yang akan digunakan adalah bersih, konsisten, dan dalam format yang sesuai untuk analisis atau pelatihan model pembelajaran mesin. Proses ini melibatkan berbagai tahapan, seperti pembersihan data, transformasi data, dan pengurangan dimensi.

Contoh kode untuk Data Preparation dalam Python menggunakan library pandas:

import pandas as pd

# Membaca data dari file CSV
data = pd.read_csv('data.csv')

# Pembersihan data: menghapus entri duplikat dan menangani nilai yang hilang
data.drop_duplicates(inplace=True)
data.dropna(inplace=True)

# Transformasi data: mengubah format tanggal, mengonversi variabel kategorikal menjadi numerik, dll.
data['tanggal'] = pd.to_datetime(data['tanggal'])
data['jenis_kelamin'] = data['jenis_kelamin'].map({'Laki-laki': 1, 'Perempuan': 0})

# Penggabungan data (jika diperlukan): menggabungkan beberapa sumber data menjadi satu dataset
data1 = pd.read_csv('data1.csv')
data2 = pd.read_csv('data2.csv')
merged_data = pd.merge(data1, data2, on='id')

# Menyimpan data yang telah diproses ke dalam file baru
data.to_csv('data_cleaned.csv', index=False)

  • Data Visualization

Data visualization atau visualisasi data adalah proses penyajian data dalam bentuk grafik atau gambar, sehingga informasi yang terdapat dalam data dapat lebih mudah dipahami dan dianalisis. Visualisasi data membantu dalam mengidentifikasi pola, tren, dan anomali dalam data, serta mempermudah komunikasi hasil analisis.

Contoh kode untuk Data Visualization dalam Python menggunakan library matplotlib:

import matplotlib.pyplot as plt
import seaborn as sns

# Memvisualisasikan distribusi umur dalam data
plt.figure(figsize=(8, 6))
sns.histplot(data['umur'], bins=20, kde=True, color='skyblue')
plt.title('Distribusi Umur')
plt.xlabel('Umur')
plt.ylabel('Frekuensi')
plt.show()

# Memvisualisasikan hubungan antara dua variabel dengan scatter plot
plt.figure(figsize=(8, 6))
sns.scatterplot(x='tinggi', y='berat', data=data, hue='jenis_kelamin', palette='Set1')
plt.title('Hubungan Tinggi dan Berat Badan')
plt.xlabel('Tinggi (cm)')
plt.ylabel('Berat (kg)')
plt.legend(title='Jenis Kelamin')
plt.show()

Komentar

Postingan populer dari blog ini

DATA TRANSKIP NILAI DAN DATA LULUSAN DARI UNIVERSITAS MELALUI API

 Link Google Colaboratory : Link Google Colaboratory Link PDf :  Link PDF           Pendahuluan Dalam laporan ini, kami akan menganalisis data transkrip nilai mahasiswa untuk mengeksplorasi beberapa aspek yang relevan dengan keberhasilan akademik mereka. Fokus utama analisis meliputi Indeks Prestasi Semester (IPS) per semester per mahasiswa, hubungan antara IPS dan lulusan tepat waktu, keterkaitan antara predikat kelulusan 'Pujian' dengan lulusan tepat waktu, hubungan antara durasi studi dan predikat kelulusan, serta perbandingan prestasi akademik berdasarkan jenis kelamin. Dengan menggali data ini, kami bertujuan untuk mendapatkan wawasan yang lebih mendalam tentang faktor-faktor yang memengaruhi keberhasilan akademik mahasiswa terutama dalam konteks lulus tepat waktu. I            I ntegrasi Data Mengambil data transkrip nilai dari API dan mengonversinya menjadi DataFrame Pandas, kemudian menampilkan bebe...

SUPERVISED LEARNING (PREDIKSI) 30 ALGORITMA

1. Pengertian Supervised Learning: Supervised Learning adalah salah satu metode dalam pembelajaran mesin (machine learning) di mana model dilatih menggunakan data yang sudah diberi label. Data berlabel berarti setiap data input memiliki output yang diketahui dan telah ditentukan sebelumnya. Proses pelatihan ini melibatkan pemetaan input ke output yang benar, dengan tujuan agar model dapat melakukan prediksi yang akurat pada data baru yang belum pernah dilihat sebelumnya. Dalam supervised learning, model dibimbing (supervised) dengan contoh-contoh dari data berlabel, sehingga dapat belajar dari pola-pola yang ada untuk kemudian digunakan dalam memprediksi atau mengklasifikasikan data yang tidak dikenal. Terdapat dua jenis utama tugas dalam supervised learning, yaitu: Klasifikasi : Di mana output yang diprediksi adalah kategori atau kelas (contohnya, deteksi email spam, diagnosis penyakit). Regres i: Di mana output yang diprediksi adalah nilai kontinu (contohnya, prediksi harga rumah, ...