Skip to content
Home ยป Blog ยป Sebelum Analisis, Biasakan Cleaning Data Dulu

Sebelum Analisis, Biasakan Cleaning Data Dulu

Cleaning data merupakan kegiatan wajib yang perlu dilakukan ketika ingin menganalisa data, mau sebaik apapun anda dalam mengolah data, jika data yang anda analisa masih berantakan dan tidak bersih. Bisa dipastikan bahwa hasil analisa data anda akan jelek.

Pada kesempatan kali ini saya akan membahas apa itu cleaning data, apa saja yang perlu diperhatikan, dan bagaimana langkah yang perlu dilakukan untuk cleaning data.

Apa itu data cleaning

Data cleaning adalah proses perbaikan dan juga identifikasi data yang akan kita gunakan. Proses data cleaning dapat berupa, menangani missing value, data duplikat, dan inkonsisten format. Tujuan dari data cleaning adalah memastikan data yang digunakan bisa berkualitas sehingga menghasilkan analisa yang maksimal.

Apa yang perlu diperhatikan

Jika anda baru dalam mempelajari data science pada umumnya akan mengalami kebinggungan seperti parameter apa saja yang perlu diperhatikan agar sebuah data bisa disebut sebagai data yang bersih atau layak. Berikut saya berikan hal apa saja yang perlu dilakukan saat data cleaning.

Kualitas data

Perhatikan beberapa parameter kualitas data berikut ini agar data yang anda analisa menjadi maksimal.

  • Kelengkapan: Apakah data yang anda miliki memiliki missing value? Apakah data yang anda butuhkan ada disana?
  • Relevansi: Apakah data yang anda miliki berguna untuk analisa anda? Jika data yang dianalisa tidak berguna hanya akan memperberat proses.
  • Konsistensi: Apakah data yang anda gunakan memiliki format yang sama? misalnya untuk berat prodak semua menggunakan satuan kg atau ada yang menggunakan satuan lainnya.
  • Keterkaitan: Apakah data yang ada saling terkait? dan apakah bisa digabungkan dengan mudah jika diperlukan?
  • Akurasi: Apakah semua data sudah berada ditempatnya masing masing. Misalnya apakah nomer ID prodak sudah sesuai dengan prodak yang dimaksud.

Jenis kesalahan data

Ada beberapa kesalahan data yang umum terjadi. Identifikasi kesalahan sehingga anda tau apa yang perlu anda lakukan.

  • Missing value adalah kondisi dimana ada data yang kosong dalam dataset.
  • Data duplikat, terdapat dua data yang sama dalam dataset.
  • Outlier, outlier adalah data yang berbeda dengan data yang ada dalam dataset.
  • Inkonsistensi format (misalnya; satuan berat terdapat kg dan lb)
  • Terdapat data yang tidak perlu (misalnya: kita ingin menganalisa sentimen, maka lambang seperti ๐Ÿ˜„๐Ÿ’€@!#$ tidak diperlukan)

Langkah data cleaning

Setelah memahami apa saja yang perlu diperhatikan saat data cleaning, sekarang saatnya mempelajari bagaimana proses data cleaning.

Eksplorasi data

Langkah pertama yang perlu dilakukan adalah melakukan eksplorasi data, yaitu proses untuk melihat data yang anda gunakan apakah memiliki missing value, apakah memiliki duplikat, apakah terdapat inkonsistensi dalam menggunakan satuan, apakah terdapat karakter yang tidak anda butuhkan. Anda bisa menggunakan Excel, R dan Python.

Menangani missing value

  • Menghapus: Jika missing value dalam dataset tidak terlalu banyak maka bisa dihapus.
  • Mengisi: Gunakan metode ini untuk mengisi data yang kosong
    • Gunakan mean, median, atau mode untuk tipe data numerik
    • Gunakan interpolasi atau bisa disebut juga dengan prediksi untuk data dengan tipe time series
    • Gunakan data deffault untuk data dengan tipe kategori. (misal pada kolom gender ada data dengan nama Ahmad Yusuf anda bisa melabelinya sebagai M)

Menangani data duplikat

Langkah pertama yang perlu anda lakukan adalah identifikasi apakah dalam kolom diperbolehkan terdapat data duplikat atau tidak, misalnya pada kolom gender pasti anda akan banyak menemukan data yang duplikat. Lalu yang perlu anda lakukan jika terdapat data duplikat yang tidak diperlukan adalah menghapusnya.

Menangani outlier

  • Mengidentifikasi: Gunakan metode statistik seperti standar defiasi, atau gunakan visualisasi box plot untuk mempermudah.
  • Penanganan: Untuk outlier anda bisa menghapus, mengganti atau mempelajari lebih lanjut sesuai dengan kebutuhan usaha anda.

Konsistensi data

  • Standarisasi format data: Pastikan format seragam misalnya:
    • Berat menggunakan satuan yang sama misalnya hanya menggunakan kg tanpa satuan lb
    • Misalnya nama orang menggunakan huruf kecil semua
  • Normalisasi data: Misalnya dalam data terdapat nilai yang sama tetapi menggunakan format berbeda. contohnya pada kolom gender tertulis “laki-laki” dan “pria”, anda harus ubah menjadi format yang sama.

Dokumentasi

Lakukan dokumentasi terhadap setiap langkah-langkah cleaning data yang dilakukan. Hal ini perlu dilakukan dikarenakan jika suatu saat kita perlu untuk membuka coding yang dibuat, kita mengerti bagaimana alur coding yang ada.

Kesalahan harus dihindari

  • Terlalu banyak menghapus data: Jangan terlalu banyak menghapus data terutama data kosong karena masih bisa diisi dengan mean, median, atau modus. Terlalu banyak menghapus data akan berakibat pada kualitas analisa yang anda hasilkan.
  • Tidak memvalidasi data: Jangan lupa untuk melakukan pengecekan apakah data yang digunakan sepenuhnya diperlukan untuk dianalisa.
  • Tidak melakukan dokumentasi: Jangan lupa untuk selalu mencatat perubahan yang anda lakukan pada data yang anda tangani. Untuk mempermudah proses pengembangan analisa.

Contoh kasus

Untuk bisa lebih memahami bagaimana cara cleaning data, mari kita coba untuk belajar bersama dengan menggunakan dataset sebagai berikut.

Data yang saya ambil berasal dari Kaggle, pada umumnya data yang berasal dari kaggle sudah bersih seperti tidak mengandung duplikat dan tidak ada nilai kosong (missing value). Dikarenakan sudah bersih data akan saya ubah sesuai dengan kebutuhan. Misalnya saya ingin membuat machine learning yang memprediksi penjualan coklat pada waktu tertentu.

Data yang saya butuhkan adalah data kolom “Amount” dan juga data kolom “Date”, untuk bisa dianalisa kolom Amount perlu untuk dihilangkan artibut yang tidak diperlukan seoerti lambang $ dan juga tanda koma.

# Convert "Amount" to Numeric
df['Amount'] = df['Amount'].replace('[\$,]', '', regex=True).astype(float)
df["Amount"].head()

Lalu pada kolom Date saya akan mengubah format penanggalan yang awalnya 04/01/2022 menjadi 2022-01-04. Berikut merupakan codenya.

# Date formating
df['Date'] = pd.to_datetime(df['Date'], dayfirst=True)

Berikut merupakan data table yang sudah bersih dan sesuai dengan apa yang dibutuhkan. Pada dasarnya data cleaning tidak bisa ditentukan tahap tahap pastinya hal ini dikarenakan setiap dataset dan permasalahan yang ingin dijawab memiliki keunikan tersendiri. Selalu pastikan anda melakukan cleaning data sesuai dengan konteks permasalahan yang anda ingin jawab.

Baca juga: Statistika dalam data science

Reverensi

Data Cleaning: Langkah Fundamental Sebelum Analisis dan Modeling Data

Data Cleaning in ML

Chocolate Sales Intelligence: Revenue Optimization