Skip to content
Home » Blog » Kesalahan umum analisis regresi

Kesalahan umum analisis regresi

Analisis regresi merupakan metode yang serbaguna karena kemampuannya untuk melakukan analisa dengan berbagai macam permasalahan bahkan dengan menggunakan dataset yang kecil. Seperti hal hal yang ada didunia ini yang memiliki kelemahan, regresi juga memiliki kelemahan. Berikut merupakan hal hal yang menghambat analisis menggunakan regresi.

Regresi S&K

Pernahkah anda kercunan kopi susu? jika iya kemungkinan anda mengidap laktosa intoleran. Jika anda merupakan pengidap intoleransi laktosa, anda akan sangat berhati hati dengan apa yang anda konsumsi, seoerti menghindari susu dan prodak olahan susu. Begitu juga dengan regresi, misal regresi merupakan makanan instan maka akan terdapat label yang melarang penggunaan regresi pada beberapa kondisi. Berikut ini merupakan beberpa kondisi dimana regresi tidak bisa bekerja secara optimal.

Nonlinearitas

kesalahan regresi yang pertama adalah linearitas, regresi hanya bekerja dengan baik jika data yang dianalisa berupa linear. regresi bisa menganalisa hubungan antara diskon dengan penjualan, regresi bisa menganalisa hubungan antara promosi dengan prodak yang kita jual. Tetapi untuk bisa memprediksi harga mobil yang sudah kita beli? regresi tidak bisa melakukannya dengan baik. Seperti yang kita pahami bersama, bahwa ketika kita membeli mobil dalam keadaan baru, maka harga jual dari mobil yang kita beli akan mengalami penurunan. Dibutuhkan waktu puluhan tahun hingga dititik dimana mobil yang kita beli menjadi mobil antik lalu menjualnya ke kolektor maka harga mobil yang kita jual akan mengalami peningkatan.

Yang paling penting disini adalah jika kita menggunakan regresi pada sebuah data yang tidak berbentuk linear, maka kita akan menggunakan distribution regression atau bisa juga dengan membagi dataset menjadi beberapa bagian agar bisa dianalisa dengan baik. Jika kita memaksakan menggunakan regresi pada data nonlinear maka machine akan mengeluarkan sebuah persamaan yang tidak akurat sama sekali.

Multicollinearity

Kesalahan regresi lainnya yang kemungkinan anda tambahkan adalah menambahkan variable dengan pengaruh yang memiliki kemiripan. Kondisi ini disebut dengan multikolinearitas, yaitu kondisi dimana variable yang ditambahkan dalam analisa memiliki korelasi yang sangat tinggi, sehingga informasi yang mereka berikan ke model menjadi tumpang tindih.

Mungkin kesalahan ini tidak memberikan pengaruh yang terlalu buruk terhadap model yang anda buat, tetapi jika tujuan anda adalah untuk melakukan analisa kondisi ini bisa sangat menyesatkan dikarenakan model tidak bisa membedakan kontribusi masing-masing variable.

Contoh kasus, misalnya ada peneliti yang sedang meneliti hubungan antara tingkat pendidikan dan tingkat kekayaan terhadap kesehatan. Setelah dilakukan penelitian Ternyata, pendidikan dan pendapatan saling berkorelasi tinggi (orang berpendidikan tinggi umumnya berpendapatan tinggi). Hal ini berdampak dimodel yang akan anda bangun dikarenakan model tidak bisa membedakan apakah kesehatan membaik karena pendidikan atau pendapatan.

Correlation ≠ causation

Kesalahan regresi yang lebih parah dibandingkan dengan kedua contoh diatas adalah mengangap semua hal yang ada dalam analisa regresi sebagai penyebab dari fenomena tertentu. Padahal belum tentu. Didalam data science dan statistik untuk menghindari kesalahan ini sering digunakan istilah correlation ≠ causation atau jika diterjemahkan dalam bahasa indonesia. Tidak semua yang berkaitan merupakan penyebab dari hal tersebut.

Misalnya jika kita mengambil data penjualan es krim dan juga tingkat kematian orang saat berenang disebuah pantai, maka akan terdapat sebuah kecenderungan bahwa dengan peningkatan penjualan es krim maka akan terdapat peningkatan tingkat kematian. Jika kita selalu berpendapat bahwa semua yang berkaitan merupakan penyebab dari fenomena lainnya tanpa melakukan penelitian lebih lanjut maka kita akan berfikir bahwa dengan meningkatnya konsumsi es krim maka tingkat kematian akan meningkat.

Padahal yang menjadi penyebab utama dari kenaikan penjualan es krim dan tingkat kematian di pantai adalah cuaca panas. Saat cuaca panas orang cenderung untuk mengkonsumsi es krim lebih banyak dan pantai saat musim panas lebih ramai sehingga meningkatkan potensi kematian.

Hubungan sebab-akibat yang salah ini merupakan salah satu contoh dari banyaknya hubungan sebab akibat yang salah. Diluar sana masih banyak contoh yang tidak bisa saya sebutkan satu persatu. Hubungan sebab akibat yang salah ini bisa disebut juga dengan spurious causation

Reverse causality

Kesalahan regresi yang berikutnya adalah reverse causality merupakan keadaan yang terjadi ketika seseorang berfikir bahwa dua variable saling berhubungan tetapi arah hubungannya terbaca terbali. Misalnya ada yang berfikir bahwa A menyebebakan B tetapi pada kenyataannya B menyebabkan A.

Contoh dari kasus reverse causality adalah misalnya ada seorang selebgram dengan follower yang banyak biasanya lebih sering upload konten. Lalu dengan cepat kita mengambil kesimpulan bahwa dengan sering upload konten maka kita bisa mendapatkan follower lebih banyak. Tetapi bisa juga sebaliknya, karena sudah memiliki banyak follower menjadi lebih bersemangat dalam mengupload konten.

Menurut Katz (2006)memahami reverse causality terkadang hanya membutuhkan “common sense.”  Karena regresi tidak memberikan penjelasan kemanakah arah kausalitas antar variable tertuju, tetapi harus datang dari logika dan melalui percobaan.

Bias variable

Bias variable terjadi ketika variable yang penting malah diabaikan (atau dengan sengaja tidak dimasukkan). Akibatnya hasil penelitian menjadi bias dan menyesatkan. Bias variable merupakan hal yang sering terjadi disekitar kita. Misalnya banyak berita yang clickbait dengan sengaja membuat judul berita yang kontrofersial yang bertujuan untuk menarik pembaca. Contohnya adalah “Sarapan Pagi Bikin Anak Pasti Juara Kelas!!”. Mengabaikan variabel lain seperti kualitas pengajaran, motivasi belajar, dukungan orang tua, dan lingkungan rumah. Sarapan penting, tapi bukan jaminan anak pasti pintar.

Kenapa bias variable begitu mengganggu? bias variable merupakan sumber dari endogenitas. Endogenitas terjadi ketika variable yang penting tidak ikut masuk kedalam sistem untuk dianalisa. Ketika hal ini terjadi maka variable yang bermasalah akan masuk kedalam sistem dan dianalisa. Dan pada akhirnya akan mengganggu kemampuan kita dalam menganalisa dan akan menggagu hasil dari penelitian.

Ekstrapolasi melebihi data

Ekstrapolasi adalah istilah dalam statistika untuk memprediksi nilai-nilai diluar data yang diamati. Regresi hanya dapat digunakan secara optimal selama digunakan dalam menganalisa sesuai dengan data yang diamati atau bisa disebut juga dengan interpolasi.

Jika ada sebuah model regresi dengan dataset berisi pendapatan rata-rata dari orang dengan usia produktif dengan range 22 – 40 tahun diapatkan tren bahwa kenaikan usia berbanding lurus dengan kenaikan pendapatan. Jika model ini dipaksakan untuk memprediksi pendapatan orang berusia 100 tahun maka akan didapatkan angka yang sangat besar. Padahal setelah memasuki usia pensiun, pendapatan cenderung mengalami penurunan. Jadi regresi akan memberikan hasil yang melenceng, jika digunakan untuk memprediksi diluar dataset.

Kesimpulan

Regresi banyak digunakan orang untuk menganalisa dikarenakan kemudahan dan kemampuannya dalam menganalisa. Anda mau memprediksi penjualan? Anda hanya memiliki sedikit dataset untuk dianalisa?Hampir semua permasalah data science atau statistika bisa dijawab menggunakan regresi.

Dengan beberapa batasan yang sudah dipaparkan saya berharap hal ini bisa memperbaiki hasil analisa regresi yang anda lakukan.

Baca juga: T-distribution