Modul 5: Klasifikasi: Mengenal Pola Dalam Data
Pada pertemuan kali ini, saya belajar mengenai klasifikasi dalam machine learning, yaitu proses mengenali dan memprediksi pola dalam data untuk menentukan kelas atau kategori tertentu. Materi ini membahas konsep dasar klasifikasi, berbagai algoritma yang umum digunakan seperti K-Nearest Neighbor (KNN), Decision Tree, dan Random Forest, serta bagaimana cara mengevaluasi hasil klasifikasi menggunakan metrik yang tepat.
B. Dasar Teori
1. Konsep Klasifikasi
Klasifikasi merupakan metode supervised learning yang digunakan untuk memprediksi kelas dari data baru berdasarkan data lama yang sudah memiliki label. Berbeda dengan regresi yang menghasilkan nilai numerik, klasifikasi menghasilkan kategori diskrit, misalnya “spam/tidak spam” atau “churn/loyal”.
Secara umum, proses klasifikasi melibatkan pelatihan model menggunakan data yang sudah diberi label, lalu model tersebut digunakan untuk memprediksi kelas dari data baru, dan hasilnya dievaluasi untuk mengetahui tingkat akurasi.
Jenis klasifikasi terbagi menjadi dua:
-
Binary Classification (dua kelas)
Contoh:-
Email: spam atau non-spam
-
Pelanggan: churn atau loyal
-
Hasil tes: positif atau negatif COVID-19
-
-
Multiclass Classification (lebih dari dua kelas)
Contoh: pengelompokan jenis bunga, pengenalan wajah, atau klasifikasi warna.
Klasifikasi banyak diterapkan dalam dunia bisnis karena dapat membantu perusahaan mengenali pelanggan yang berisiko berhenti, mengelompokkan umpan balik pelanggan, serta mendukung pengambilan keputusan berbasis data.
2. Algoritma Klasifikasi Populer
Beberapa algoritma klasifikasi yang paling sering digunakan karena efektif dan mudah diimplementasikan antara lain:
-
K-Nearest Neighbor (KNN)
Algoritma ini mengklasifikasikan data berdasarkan kedekatan jarak antara data baru dan data yang sudah berlabel. Semakin dekat suatu data dengan kelompok tertentu, semakin besar kemungkinan data tersebut termasuk dalam kelas yang sama. Kelebihannya adalah sederhana dan mudah dipahami, namun performanya bisa menurun untuk dataset besar. -
Decision Tree
Algoritma ini bekerja dengan membagi data ke dalam cabang-cabang berdasarkan fitur tertentu hingga menghasilkan keputusan akhir. Setiap percabangan merepresentasikan pertanyaan, dan daun pohon menunjukkan hasil klasifikasi. Metode ini mudah dipahami dan divisualisasikan, tetapi dapat mengalami overfitting jika tidak dikontrol dengan baik. -
Random Forest
Random Forest adalah gabungan dari banyak pohon keputusan (Decision Tree) untuk menghasilkan prediksi yang lebih stabil dan akurat. Metode ini lebih tahan terhadap overfitting dibandingkan satu pohon keputusan saja, tetapi membutuhkan sumber daya komputasi yang lebih besar.
3. Contoh Kasus Nyata Klasifikasi
Salah satu penerapan klasifikasi yang umum adalah prediksi churn pelanggan, yaitu mengelompokkan pelanggan ke dalam kategori “churn” (berhenti) atau “loyal” berdasarkan perilaku transaksi, durasi langganan, serta respon terhadap promosi. Dengan informasi tersebut, perusahaan dapat menyusun strategi retensi yang lebih efektif.
Klasifikasi juga digunakan untuk:
-
Deteksi Penipuan, dengan membedakan transaksi normal dan mencurigakan berdasarkan pola perilaku pengguna.
-
Klasifikasi Dokumen, seperti mengelompokkan dokumen ke dalam kategori keuangan, hukum, atau pemasaran.
-
Diagnosis Kesehatan, misalnya mengidentifikasi penyakit dari data medis pasien untuk membantu pengambilan keputusan klinis.
4. Evaluasi Model Klasifikasi
Evaluasi dilakukan untuk mengukur seberapa baik model klasifikasi dalam memprediksi data dengan benar. Tidak seperti regresi yang menilai akurasi nilai numerik, klasifikasi menggunakan metrik berbasis jumlah prediksi benar dan salah.
Beberapa metrik utama yang digunakan yaitu:
a. Confusion Matrix
Confusion matrix adalah representasi visual berupa tabel yang menunjukkan jumlah prediksi benar dan salah dari suatu model klasifikasi. Tabel ini membantu memahami jenis kesalahan yang terjadi.
Dalam kasus klasifikasi dua kelas (binary classification), confusion matrix memiliki empat komponen utama:
| Prediksi Positif | Prediksi Negatif | |
|---|---|---|
| Aktual Positif | True Positive (TP) | False Negative (FN) |
| Aktual Negatif | False Positive (FP) | True Negative (TN) |
-
True Positive (TP) → Model memprediksi positif dan hasilnya benar positif.
-
True Negative (TN) → Model memprediksi negatif dan hasilnya benar negatif.
-
False Positive (FP) → Model memprediksi positif padahal sebenarnya negatif (kesalahan tipe I).
-
False Negative (FN) → Model memprediksi negatif padahal sebenarnya positif (kesalahan tipe II).
b. Akurasi, Presisi, Recall, dan F1-Score
Empat metrik ini digunakan untuk mengevaluasi kinerja model klasifikasi:
-
Akurasi (Accuracy)
Mengukur proporsi prediksi yang benar terhadap seluruh data.
[
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
]
Akurasi cocok digunakan ketika data seimbang, namun kurang tepat jika dataset tidak seimbang (misalnya data penipuan hanya 1% dari total data). -
Presisi (Precision)
Mengukur seberapa tepat model dalam memprediksi kelas positif.
[
\text{Precision} = \frac{TP}{TP + FP}
]
-
Precision (Presisi)
Presisi digunakan untuk mengukur seberapa banyak hasil prediksi positif yang benar-benar relevan.
Nilai presisi yang tinggi menandakan bahwa model menghasilkan sedikit kesalahan positif palsu.
Presisi sangat penting dalam kasus seperti deteksi spam, karena kita tidak ingin terlalu banyak email normal yang keliru dianggap spam.
-
Recall (Sensitivitas)
Recall mengukur seberapa banyak data positif yang berhasil ditemukan oleh model.
Rumusnya:
[
Recall = \frac{TP}{TP + FN}
]
Nilai recall yang tinggi menunjukkan bahwa model mampu menangkap sebagian besar data positif yang sebenarnya. Recall sangat penting pada kasus deteksi penyakit, karena model tidak boleh melewatkan pasien yang benar-benar positif.
-
F1-Score
F1-Score merupakan rata-rata harmonis antara nilai precision dan recall yang digunakan untuk mencari keseimbangan antara keduanya.
Rumusnya:
[
F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}
]
Nilai F1 yang tinggi menandakan bahwa model mampu menemukan data positif dengan tepat sekaligus meminimalkan kesalahan.
Metode ini berguna ketika data tidak seimbang, misalnya pada kasus deteksi penipuan atau diagnosis penyakit langka.
-
ROC Curve dan AUC (Pengantar Singkat)
Selain confusion matrix dan metrik turunannya, ada juga metode visual populer untuk mengevaluasi model klasifikasi, yaitu ROC Curve (Receiver Operating Characteristic).
ROC menampilkan hubungan antara nilai True Positive Rate (Recall) dengan False Positive Rate pada berbagai ambang batas (threshold) probabilitas prediksi.Luas area di bawah kurva ROC disebut AUC (Area Under the Curve), yang menunjukkan kemampuan model dalam membedakan antara kelas positif dan negatif.
Interpretasinya:
-
AUC = 0.5 → Model tidak lebih baik dari tebakan acak.
-
AUC mendekati 1.0 → Model memiliki kemampuan prediksi yang sangat baik dalam membedakan kelas positif dan negatif.
ROC-AUC sering digunakan karena mampu memberikan gambaran menyeluruh tentang performa model, terutama ketika dataset tidak seimbang. Nilai AUC yang tinggi menunjukkan bahwa model bekerja secara konsisten dan dapat diandalkan pada berbagai ambang keputusan.
-
Kesimpulan
Dari materi ini, dapat disimpulkan bahwa klasifikasi merupakan teknik penting dalam machine learning yang digunakan untuk memprediksi kategori data berdasarkan pola dari data berlabel.
Pemahaman terhadap berbagai algoritma klasifikasi seperti KNN, Decision Tree, dan Random Forest membantu dalam memilih metode yang sesuai dengan kebutuhan.
Selain itu, evaluasi model menggunakan metrik seperti Accuracy, Precision, Recall, F1-Score, dan ROC-AUC sangat penting untuk memastikan model bekerja dengan akurat dan seimbang.
Dengan memahami seluruh konsep ini, mahasiswa dapat mengimplementasikan model klasifikasi secara efektif untuk berbagai kasus seperti deteksi penipuan, diagnosis penyakit, maupun analisis perilaku pelanggan.
Praktikum ML Bab 5 : Praktikum5
Tugas ML Bab 5 : Tugas5
Latihan ML Bab 5 : Latihan 5
Referensi
Sumber utama:
Modul Praktikum Machine Learning & AI, disusun oleh Adi Muhamad Muhsidi (2025).
Program Studi Bisnis Digital Fakultas Ekonomi dan Bisnis, Universitas Kuningan.
link: https://heyzine.com/flip-book/cbbbf75431.html
Atau dapat diakses langsung dari blog pribadi penulis di: https://adi-muhamad.my.id

Komentar
Posting Komentar