Langsung ke konten utama

DATA PROCESSING DAN DATA CLEANING

Data processing adalah proses pengolahan data mentah menjadi informasi yang berguna sedangkan Data cleaning adalah proses untuk mengidentifikasi dan memperbaiki atau menghapus data yang kotor atau tidak akurat dari dataset.

1. Penanganan Nilai Hilang (Missing Value) : Setelah melakukan pencarian, ditemukan bahwa terdapat beberapa data yang memiliki nilai null pada kolom-kolom tertentu. Ini dapat mempengaruhi analisis, sehingga perlu dilakukan penanganan nilai hilang. Beberapa teknik yang dapat digunakan termasuk pengisian nilai hilang dengan rata-rata, median, atau mode dari kolom tersebut, atau penghapusan baris/kolom yang memiliki banyak nilai hilang.

2. Identifikasi dan Penghapusan Duplikat : Setelah dilakukan identifikasi, beberapa baris dalam dataset ternyata merupakan duplikat. Langkah selanjutnya adalah menghapus duplikat tersebut untuk memastikan analisis dilakukan pada data yang bersih. Ini penting untuk mencegah bias dalam hasil analisis yang disebabkan oleh pengulangan data yang sama.

3. Penanganan Nilai Ekstrem : Melalui analisis, teridentifikasi adanya nilai-nilai yang ekstrem dalam dataset. Nilai-nilai ini dapat mempengaruhi hasil analisis secara signifikan. Oleh karena itu, perlu dilakukan penanganan khusus terhadap nilai-nilai ekstrem ini. Teknik yang dapat digunakan termasuk transformasi data, penghapusan outlier, atau pengaturan batas atas dan bawah untuk data.

4. Penanganan Kesalahan Tipe atau Format : Terdapat beberapa kesalahan tipe atau ketidaksesuaian format dalam dataset yang perlu diidentifikasi dan diperbaiki. Hal ini penting untuk memastikan konsistensi data dan akurasi analisis. Misalnya, memastikan bahwa semua tanggal dalam format yang sama, atau semua angka diformat dengan konsistensi desimal yang benar.

5. Identifikasi Anomali atau Nilai Tidak Sesuai : Selama proses analisis, terdapat beberapa nilai yang tidak sesuai dengan aturan bisnis atau ilmu pengetahuan yang relevan. Penting untuk mengidentifikasi dan menangani anomali ini agar analisis dapat dilakukan dengan akurat. Ini dapat melibatkan validasi terhadap aturan-aturan tertentu dan koreksi data yang tidak sesuai.

6. Pembersihan dan Pemrosesan Data Teks : Terdapat juga data teks dalam dataset yang perlu dibersihkan dan diproses. Ini termasuk penghapusan karakter khusus, konversi teks ke format standar (misalnya, huruf kecil semua), penghapusan stop words, dan mungkin juga penerapan stemming atau lemmatization untuk menghasilkan representasi yang lebih bersih dan seragam dari data teks. 

contoh link google colaboratory : link google colaboratory Data processing dan data cleaning

Komentar

Postingan populer dari blog ini

SUPERVISED LEARNING (PREDIKSI) 30 ALGORITMA

1. Pengertian Supervised Learning: Supervised Learning adalah salah satu metode dalam pembelajaran mesin (machine learning) di mana model dilatih menggunakan data yang sudah diberi label. Data berlabel berarti setiap data input memiliki output yang diketahui dan telah ditentukan sebelumnya. Proses pelatihan ini melibatkan pemetaan input ke output yang benar, dengan tujuan agar model dapat melakukan prediksi yang akurat pada data baru yang belum pernah dilihat sebelumnya. Dalam supervised learning, model dibimbing (supervised) dengan contoh-contoh dari data berlabel, sehingga dapat belajar dari pola-pola yang ada untuk kemudian digunakan dalam memprediksi atau mengklasifikasikan data yang tidak dikenal. Terdapat dua jenis utama tugas dalam supervised learning, yaitu: Klasifikasi : Di mana output yang diprediksi adalah kategori atau kelas (contohnya, deteksi email spam, diagnosis penyakit). Regres i: Di mana output yang diprediksi adalah nilai kontinu (contohnya, prediksi harga rumah, ...

INSTALASI DAN KONFIGURASI DBMS ATAU MYSQL

DBMS (Database Management System) adalah perangkat lunak yang digunakan untuk mengelola dan mengatur basis data. DBMS memungkinkan pengguna untuk membuat, mengakses, dan mengelola data dalam basis data secara efisien. Berikut adalah langkah-langkah umum untuk menginstal dan mengkonfigurasi DBMS: 1. Pilih DBMS yang sesuai       Ada berbagai jenis DBMS yang tersedia, seperti MySQL, Oracle, Microsoft SQL Server, PostgreSQL, dan lainnya. Pilih DBMS yang sesuai dengan kebutuhan Anda. 2. Unduh dan instal DBMS       Kunjungi situs resmi DBMS yang Anda pilih dan unduh paket instalasi yang sesuai dengan sistem operasi yang Anda gunakan. Ikuti instruksi instalasi yang diberikan. 3. Konfigurasi pengaturan awal      Setelah instalasi selesai, Anda perlu melakukan beberapa konfigurasi awal. Ini termasuk mengatur kata sandi root atau administrator, menentukan direktori penyimpanan data, dan mengonfigurasi parameter utama seperti ukuran memori yan...

APA ITU ATTRIBUTE, ENTITAS, DAN RELASI DALAM ERD.

 ATTIBUTE, ENTITAS DAN RELASI Atribut (field)          Setiap entitas memiliki atribut untuk mendeskripsikan karakteristik dari suatu entitas. Untuk jenisnya dibedakan menjadi beberapa jenis, yaitu Atribut key, atribut yang unik dan berbeda. Misalnya NIM, NIK dan nomor pokok lainnya. Atribut Composite, atribut yang terdiri dari beberapa sub atribut yang memiliki arti tertentu. Contohnya, nama lengkap yang dipecah menjadi nama depan, tengah, dan belakang. Dan atribut deviratif, yang dihasilkan dari atribut atau relasi lain. Jenis atribut ini tidak wajib ditulis dalam diagram ER atau pun disimpan dalam database. Sebagai contoh deriative attribute adalah usia, kelas, selisih harga, dan lain-lain. Entitas (entity)        Entitas adalah sebuah objek berwujud nyata yang dapat dibedakan dengan objek lainnya. Objeknya dapat bersifat konkret maupun abstrak. Data konkret adalah sesuatu yang ...