Statistika dalam data science

Data science dengan statistik sangat lekat kaitannya, dasar ilmu dari data science adalah statistik. Jika anda buka berbagai tulisan blog di website saya anda akan menemukan banyak dasar statistika yang saya tulis disini, hal ini bukan karena saya terlalu menyukai statistika tetapi memang dasar dari data science adalah statistika. Data science dengan statistika seperti dua buah sisi mata uang yang pada dasarnya tidak bisa dipisahkan. Pada kesempatan kali ini saya akan memberikan dasar dasar statistika yang bisa anda gunakan sebagai batu pijakan untuk mempalajari data science lebih lanjut.

“Facts are stubborn things, but statistics are pliable.”
— Mark Twain

Mendeskripsikan dataset

Untuk bisa mendeskripsikan dataset dengan baik ke client kita, kita harus melihat jumlah data set yang kita miliki jika dataset yang kita miliki kecil akan sangat mudah untuk mendeskripsikannya, misalnya kira memiliki data penjualan untuk satu minggu. Jika dibuat dataset maka bentuknya akan seperti ini. Anda akan mudah menjawab penjualan tertinggi nilainya berapa. Tetapi jika jika data yang kita miliki sangat besar maka kita membutuhkan metode lain untuk menyajikan data tersebut.

salles = [100, 53, 78, 90, 21, 77, 89]

Dalam melakukan project data science hal paling pertama yang perlu anda lakukan adalah mengetahui karakteristik dari data yang anda miliki. Misalnya apakah data yang anda miliki memiliki data yang kosong, berapakah nilai tertinggi dari penjualan tahun ini, berapakah penjualan terrendah tahun ini, dan masih banyak lagi. Catatan, jika dataset anda terdapat data kosong, maka anda harus melakukan proses data cleaning.

Jika anda sudah mengetahui karakteristik dari data yang anda miliki. Maka sekarang sudah waktunyan anda untuk melakukan visualisasi data. Visualisasi data penting untuk dilakukan karena tidak semua data berjumlah sedikit kebanyakan dataset memiliki jumlah ratusan bahkan bisa sampai ratusan ribu. Akan sangat sulit memahami data yang banyak tanpa melalui proses visualisasi.

Sekarang bayangkan misal anda memiliki data penjualan dan biaya iklan yang anda keluarkan, akan sangat sulit membaca data yang berjumlah besar. Jika data yang ditampilkan masih dalam bentuk mentah dan belum diubah melalui visualisasi.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

np.random.seed(42)

# generate tanggal 6 bulan
dates = pd.date_range(start="2025-01-01", periods=180, freq="D")

# biaya iklan (juta) – agak naik pelan
iklan = np.random.normal(loc=15, scale=5, size=180)
iklan = np.clip(iklan, 5, 30)

# penjualan (juta) – dipengaruhi iklan + noise
penjualan = (iklan * 4) + np.random.normal(0, 10, 180)

df = pd.DataFrame({
    "tanggal": dates,
    "iklan": iklan.round(2),
    "penjualan": penjualan.round(2)
})

print(df.head())

Setelah melakukan visualisasi seperti ini kita bisa dengan lebih mudah menganalisa data yang kita miliki. Seperti misalnya kita melakukan iklan dengan budget sebesar sepuluh juta rupiah berapakah perkiraan penjualan yang bisa kita dapatkan.

Central tendencies

Central tencencies merupakan sebuah nilai yang menunjukkan titik tengah dari sebuah dataset untuk mengetahui persebaran data dalam sebuah dataset. Nilai mean, medium, modus adalah ukuran central tendencies yang paling umum digunakan. Ketiganya menunjukkan persebaran data pada dataset, namun menggunakan metode yang berbeda.

Tujuan utama dari mengetahui central tendency adalah untuk mengetahui persebaran data yang dimiliki. Sehingga kita bisa mengetahui bagaimana proses lebih lanjut untuk memperlakukan data yang kita miliki. Ada tiga jenis data berdasarkan kecenderungannya

Catatan: Jika anda ingin mempelajari bagaimana cara menemukan mean, median, dan modus anda bisa menggunakan code dibawah ini, dan juga code yang ada dalam satu artikel ini saling berhubungan. Anda perlu untuk mengcopy seluruh code yang ada untuk bisa mendapatkan hasil yang sama dengan apa yang saya lakukan.

print("Central Tendency\n")

print("Mean:")
print(df[["iklan", "penjualan"]].mean())

print("\nMedian:")
print(df[["iklan", "penjualan"]].median())

print("\nMode:")
print(df[["iklan", "penjualan"]].mode())

Dispersion

Dispersion atau dalam bahasa indonesia bisa disebut juga dengan persebaran merupakan ukuran seberapa jauh persebaran sebuah data atau bervariasi sebuah data dari nilai tengahnya misalnya rata-rata. Selain itu dispersion berfungsi untuk memahami bagaimana data terdistribusi. Sehingga kita dapat membandingkan dataset satu dengan lainnya, dan mendeteksi outlier dengan cara menghitung interkuartil dan data yang berada diluar ini dikategorikan sebagai outlier.

Fungsi dari dispersion adalah membantu untuk mengetahui konsistensi dua atau lebih dataset. Memberikan kepercayaan terhadap rata-rata dan juga berfungsi dalam bidang ekonomi, bisnis serta penelitian ilmiah untuk menganalisa variasi dari dataset.

Central tendency memberikan nilai tunggal (mean, median, modus). Dispersion memberikan gambaran bagaimana data tersebar dari nilai pusatnya. Untuk bisa memahami bagaimana bagaimana persebaran data anda bisa menggunakan code dibawah ini.

plt.figure()
sns.boxplot(data=df[["iklan", "penjualan"]])
plt.title("Distribusi Iklan dan Penjualan")
plt.show()

Visualisasi yang umum digunakan untuk menggambarkan bagaimana persebaran data yang ada pada dataset adalah box plot. Pada box plot data dibagi menjadi tiga bagian yaitu Q1, Q2 atau median dan Q3. Selain itu anda bisa lihat diluar box terdapat lingkaran, lingkaran tersebut disebut juga dengan outlier atau nilai yang tidak berada dalam Q1, Q2 dan Q3.

Correlation

Dasar statistika dalam data science selanjutnya adalah correlation. Correlation merupakan ukuran statistik yang mengambarkan seberapa berhubungan dua variable yang sedang diamati. Correlation merupakan metode yang umum digunakan untuk menunjukkan hubungan antar variable tanpa menjelaskan sebab-akibatnya.

Pada umumnya correlation diukur dengan satuan yang bisa disebut juga dengan correlation cofficient dengan rentang nilai berada di angka -1 hingga +1 dengan lambang r. Jika nilai mendekati 0 maka hubungan antara variable tidak ada, jika nilai cofficient positif artinya ada hubungan antara variable, dan jika nilainya negatif maka hubungan antar variable saling bertolak belakang.

plt.figure()
sns.regplot(x="iklan", y="penjualan", data=df)
plt.title("Hubungan Biaya Iklan vs Penjualan (6 Bulan)")
plt.show()

Hubungan antara biaya iklan dengan penjualan ternyata menunjukkan trend positif seperti yang bisa dilihat pada grafik scatter plot diatas, grafik menunjukkan peningkatan kearah kanan. Jika kita mencari nilai r maka akan didapatkan nilai 0.89. Dengan ini bisa kita tarik kesimpulan bahwa dengan meningkatnya biaya iklan maka penjualan akan mengalami peningkatan.

Simpson paradox

Statistika dalam data science selanjutnya adalah simpson paradox. Sebenarnya kasus simpson paradox sangat langka, saya masukkan ini kedalam pembahasan supaya bisa menjadi bahan pembelajaran untuk rekan rekan yang lain. Simpson paradox merupakan sebuah fenomena statistik dimana tren terlihat pada data gabungan tetapi tidak terlihat ketika data dipecah. Simpson paradox dapat mengakibatkan kita salah mengambil keputusan dengan baik jika tidak dianalisa dengan baik.

Misalnya ada sebuah perusahaan yang melakukan dua jenis campaign untuk beberapa prodak yang mereka miliki, perushaan tersebut melakukan campaign A dan campaign B selama beberapa bulan dan dihasilkan hasil campaign sebagai berikut.

Campaign	Total Pembelian	Total Pengunjung	Conversion Rate
A	320	1.200	26.7%
B	270	1.900	14.2%

Jika kita hanya melihat ini saja maka, kita akan menyimpulkan bahwa campaign A jauh lebih efektif dibandingkan dengan campaign B. Namun jika kita membedah lebih lanjut, maka akan didapatkan hasil sebagai berikut.

Campaign	Pembelian	Pengunjung	Conversion Rate
A	300	1.000	30%
B	90	400	22.5%

Table penjualan prodak murah

Campaign	Pembelian	Pengunjung	Conversion Rate
A	20	200	10%
B	180	1.500	12%

Table penjualan prodak mahal

Dapat dilihat bahwa pada kasus penjualan prodak yang mahal campaign B jauh lebih efektif jika dibandingkan dengan campaign A. Dari sini kita bisa simpulkan bahwa campaign A efektif untuk prodak yang murah sedangkan campaign B lebih efektif untuk prodak yang mahal. Jika kita tidak berhati hati dalam menganalisa sebuah data bisa saja kita melakukan kesalahan dalam pengambilan keputusan.

Correlation and causation

Mungkin anda sudah pernah mendengar istilah correlation is not causation. Istilah ini sangat sering digunakan dalam analisa data. correlation dan causation jika diterjemahkan kedalam bahasa indonesia merupakan berhuungan dan penyebab, jika anda melakukan analisa data pada suatu kasus tertentu anda pasti akan menemukan pola tertentu pada data tersebut. Misalnya kenaikan penjualan seiring dengan kenaikan biaya iklan. Tetapi dalam data science ada satu kaidah yang perlu diperhatikan bahwa tidak semua yang berhubungan itu merupakan penyebab dari hal tersebut. Bisa saja ada faktor ketiga yang mengakibatkan hal itu terjadi.

Misalnya saya berasumsi bahwa meningkatnya pengunjung di website saya merupakan akibat dari saya yang semakin sering menulis di blog, maka saya akan meningkatkan jumlah tulisan saya di blog dibandingkan mengerjakan project dan mengupdatenya disini. Tetapi ada satu kemungkinan lainnya misalnya memang secara trend data science sedang naik dan orang yang membahasanya masih sedikit maka website saya menjadi salah acuan untuk belajar data science.

Satu cara yang bisa anda lakukan untuk memastikan apakah hal ini berhubungan atau tidak adalah melakukan randomized trial. Metode ini bekerja dengan cara membagi user menjadi dua kelompok lalu diberikan dua buah perlakuan yang berbeda. Dengan begitu anda akan mengetahui prodak manakah yang lebih disukai oleh user.

Demikian pembahasan statistik dalam data science, semoga bahan bacaan ini bisa anda jadikan sebagai bahan acuan untuk mempelajari lebih banyak lagi materi data science untuk kedepannya.

Baca juga: Statistika Inferensial