BAB 8 : Overfitting & Underfitting

 



A. DASAR TEORI

1. Pendahuluan Overfitting & Underfitting

a) Analogi Sederhana
Overfitting dapat diumpamakan seperti seorang mahasiswa yang hanya menghafal soal-soal latihan tanpa benar-benar memahami konsepnya. Ketika diberi soal latihan yang sama, ia mampu menjawab dengan baik, namun gagal total saat menghadapi soal baru karena tidak memahami prinsip dasarnya. Sebaliknya, underfitting menyerupai mahasiswa yang belajar terlalu sedikit sehingga tidak cukup paham untuk menyelesaikan baik soal latihan maupun soal baru. Kedua masalah ini menunjukkan bahwa model tidak berada dalam kondisi yang ideal. Model yang overfitting tampil sangat baik pada data latih tetapi buruk pada data baru, sedangkan model yang underfitting tidak mampu mempelajari pola dengan baik pada kedua jenis data.

b) Pentingnya Keseimbangan (Bias–Variance Trade-off)
Overfitting dan underfitting berkaitan dengan hubungan antara bias dan varians. Underfitting muncul ketika model terlalu sederhana sehingga pola penting tidak tertangkap (bias tinggi). Sebaliknya, overfitting terjadi saat varians terlalu tinggi karena model terlalu kompleks dan terlalu fokus pada data latih. Dalam Machine Learning, tujuan utamanya adalah menemukan model yang pas—tidak terlalu sederhana dan tidak terlalu rumit—agar dapat belajar pola penting sekaligus tetap mampu melakukan generalisasi pada data baru.

2. Definisi & Konsep Dasar

Overfitting
Overfitting muncul ketika model terlalu menyesuaikan diri dengan data latih, bahkan sampai mempelajari noise atau ketidakteraturan dalam dataset. Akibatnya, performanya terlihat sangat baik pada data latih namun buruk pada data uji. Contohnya, model prediksi penjualan e-commerce yang terlalu detail (misalnya regresi polinomial dengan derajat tinggi), sehingga memberikan hasil hampir sempurna pada data latih namun gagal memprediksi data baru dengan benar.

Underfitting
Underfitting merupakan kebalikan dari overfitting. Model menjadi terlalu sederhana sehingga tidak berhasil menangkap pola penting dalam dataset. Model seperti ini akan menunjukkan hasil yang buruk pada data latih maupun data uji. Contohnya adalah regresi linear sederhana untuk memprediksi harga barang yang sebenarnya memiliki banyak faktor kompleks, sehingga modelnya tidak mampu memberikan estimasi yang akurat.

3. Penyebab Umum

  • Overfitting
    Terjadi ketika model terlalu kompleks atau berlebihan dalam mempelajari data latih. Biasanya ditandai dengan jumlah fitur yang sangat banyak, parameter yang berlebihan, atau model yang dilatih terlalu lama sehingga menangkap noise.

  • Underfitting
    Biasanya terjadi karena model terlalu sederhana atau data latih sangat sedikit. Model gagal mempelajari hubungan variabel yang penting sehingga akurasinya rendah baik pada data latih maupun data uji.

4. Metode Deteksi

a) Membandingkan Akurasi Training vs Testing

Overfitting dapat dikenali ketika nilai akurasi pada data latih jauh lebih tinggi dibandingkan akurasi pada data uji. Sebaliknya, underfitting terjadi bila keduanya sama-sama rendah. Perbedaan besar antara akurasi training dan testing menunjukkan bahwa model tidak mampu melakukan generalisasi dengan baik.

b) Learning Curve (Grafik Loss/Akurasi)

Learning curve digunakan untuk melihat pola proses belajar model. Jika performa pada data latih terus meningkat, tetapi performa pada data uji berhenti membaik atau mulai menurun setelah titik tertentu, maka kemungkinan terjadi overfitting. Sebaliknya, jika kedua grafik tetap rendah, itu merupakan tanda underfitting.

c) Cross-Validation

Cross-validation memberikan pengukuran kinerja model yang lebih stabil dan tidak bergantung pada satu pembagian data saja. Variasi hasil antar lipatan (fold) yang besar biasanya mengindikasikan overfitting, sedangkan hasil yang konsisten antar lipatan umumnya menandakan model underfitting.

5. Teknik Mengatasi Overfitting

a) Cross-Validation (K-Fold CV)

Melatih model menggunakan beberapa subset data membantu meningkatkan kemampuan generalisasi dan mengurangi risiko model hanya “bagus” pada satu kelompok data saja.

b) Early Stopping

Pelatihan model dihentikan sebelum mencapai titik di mana performa pada data validasi mulai menurun. Dengan menghentikan pelatihan lebih awal, model dapat menghindari kecenderungan terlalu menyesuaikan diri dengan data latih.

c) Regularization (L1, L2, ElasticNet)

Regularisasi menambahkan penalti pada parameter model yang terlalu besar agar kompleksitas model dapat dikendalikan. L1 cenderung menghasilkan bobot nol pada beberapa fitur, L2 memperkecil bobot secara proporsional, sedangkan ElasticNet mengombinasikan keduanya.

d) Dropout (pada Neural Networks)

Dropout bekerja dengan menonaktifkan sejumlah neuron secara acak pada setiap iterasi pelatihan. Cara ini memaksa jaringan tidak bergantung pada neuron tertentu sehingga lebih tahan terhadap variasi data dan mengurangi overfitting.

e) Data Augmentation

Pada data citra, teknik ini menambahkan variasi pada data latih seperti rotasi, pemotongan, pembalikan, atau perubahan pencahayaan. Tujuannya memperkaya data sehingga model tidak terlalu terpaku pada pola tertentu.

f) Model Selection (Memilih Model yang Tepat)

Memilih model yang sesuai dengan karakteristik data juga dapat membantu mengurangi overfitting. Model yang terlalu kompleks untuk dataset kecil rawan overfitting, sehingga memilih arsitektur yang lebih sederhana dapat meningkatkan performa pada data baru.

B. Praktikum & Tugas

Praktikum 8 : PRAKTIKUM8
Latihan&Tugas 8 : latihan&tugas8


Referensi

Sumber utama:

Modul Praktikum Machine Learning & AI, disusun oleh Adi Muhamad Muhsidi (2025).

Program Studi Bisnis Digital Fakultas Ekonomi dan Bisnis, Universitas Kuningan. 

link: https://heyzine.com/flip-book/cbbbf75431.html

Atau dapat diakses langsung dari blog pribadi penulis di: https://adi-muhamad.my.id 

Komentar

Postingan Populer