Central Limit Theorem (CLT) - Febrian Nur Alam

Apakah teman teman pernah melihat film Harry Potter? Film ini sangat menarik pada ketika saya kecil, Harry Potter bisa melakukan apapun hanya dengan mengucapkan mantra dan mengayunkan tongkat sihirnya. Salah satu mantra yang cukup praktis adalah Lumos Harry dapat mengeluarkan cahaya diujung tongkatnya. Praktis bukan? Tetapi taukah anda bahwa di data science juga ada metodologi yang bekerja seperti sihir. Dia bisa mengubah sebuah data dengan kondisi distribusi apapun menjadi sebuah populasi dengan satu jenis distribusi yang sama. Tampak seperti sihir bukan?

Metode central limit theorem (CLT) bekerja seperti sihir. Metode ini dapat mengubah sebuah data dengan distribusi apapun menjadi data dengan distribusi rata-rata mendekati normal. Pada kesempatan ini saya akan menjelaskan tentang central limit theorem, contoh penerapan dan juga contoh penerapan CLT pada berbagai bidang.

Pengertian central limit theorem

Central limit theorem (CLT). Merupakan sebuah metode statistika yang ide dasarnya adalah jika kita mengambil rata rata dari sebuah populasi dan melakukannya berkali kali, rata-rata tersebut akan membentuk sebuah distribusi normal meskipun populasi tersebut tidak memiliki distribusi data yang normal, dan data bisa berbentuk skewness positif atau negatif.

Syarat

Jika kita ingin menggunakan central limit theorem ada beberapa hal yang harus diperhatikan agar metode ini dapat berjalan dengan baik.

Jumlah minimum sample: Jumlah minimum sample yang digunakan dalam mencari rata rata adalah 30. Namun jika sample populasi yang dianalisa memiliki banyak outlier, maka sample data yang diambil bisa ditingkatkan menjadi 50, 60 , 70 atau mungkin lebih. Pada dasarnya minimal sample yang diambil adalah 30 dan semakin banyak sample semakin baik.

Sample yang diambil acak: Pengambilan sample harus dilakukan secara acak dan juga terdistribusi secara sempurna. Artinya pada setiap bagian populasi data kita ambil untuk dijadikan sample. Jika hal ini tidak kita lakukan, maka hasil yang didapatkan tidak akan maksimal.

Memiliki variasi yang terbatas: Variasi yang terbatas disini adalah sebuah populasi memiliki data yang memiliki batasan tertentu, sehingga masih bisa dihitung. Contoh dari distribusi yang tidak bisa menggunakan CLT adalah distrubusi cauchy.

Contoh coding penerapan CLT

Central limit theorem pada dasarnya bisa digunakan dalam berbagai jenis distribusi populasi, tetapi untuk saat ini contoh yang akan digunakan adalah populasi dengan tipe skewness positif atau lebih condong ke kiri.

#Langkah pertama import semua package yang dibutuhkan
import numpy as np #mengolah data
import seaborn as sns #visualisasi data
import matplotlib.pyplot as plt #menampilkan grafik
from scipy.stats import skewnorm #generate dummy data

#Kemudain generate sample populasi yang memiliki skewness
s = skewnorm.rvs(20, size=100000) #generate populasi
sns.kdeplot(s) #melakukan visualisasi menggunakan seaborn

#Menerapkan CLT pada populasi yang diinginkan
def applyCLT(population_array, sample_size, n_samples):
  sample_means = []
  for i in range(n_samples):
    sample = np.random.choice(population_array, size=sample_size, replace=False)
    sample_mean = np.mean(sample)
    sample_means.append(sample_mean)
  return sample_means

Menerapkan CLT pada populasi
m = sns.kdeplot(applyCLT(s, 80, 500)) #pengambilan sample rata-rata berukuran 80, dan dilakukan sebanyak 500 kali

Seperti yang dilihat bahkan sebuah polulasi dengan 100.000 data dan skewness yang sangat miring. Setelah diterapkan CLT pada sample sebanyak 80 dan diulangi prosesnya sebanyak 500 kali, didapatkan sebuah grafik rata rata polulasi mendekati normal.

Penerapan central limit theorem

Central limit theorem bisa digunakan dalam bidang statistika dan data science pada saat kita diharuskan untuk menggunakan sebuah data populasi dengan distribusi normal. seperti t-tets, ANOVA, dan regresi. Selain itu metode ini bisa digunakan untuk berbagai bidang misalnya pada bidang farmasi, peneliti akan melihat apakah obat yang diproduksi sudah berhasil atau belum. Selain itu bisa juga diterapkan pada industri pupuk, dengan metode ini meskipun kadar zat yang terkandung dalam pupuk yang dikeluarkan berbeda beda, selama distribusi rata-rata yang dihasilkan cukup baik maka prodak dapat dinyatakan layak edar.

Ide dasar dari metode ini adalah dengan menggunakan sample yang relatif kecil kita bisa mengetahui gambaran kondisi populasi secara keseluruhan. Tentu saja teman teman bisa menggunakannya dalam berbagai bidang dan permasalahan. Bagaimana? Sudah seperti sihirkan metode ini? haha

Baca juga: How to lie with statistics