MODUL II: Paradigma Machine Learning & Data

 

 



   Pada modul 2 kali ini, saya mempelajari tentang paradigma Machine Learning (ML) dan berbagai jenis data yang digunakan dalam proses pembelajaran mesin. Machine Learning merupakan salah satu cabang dari kecerdasan buatan yang memungkinkan sistem komputer belajar dari data tanpa perlu diberikan instruksi secara langsung. Dalam penerapannya, ML membangun model berdasarkan pola atau hubungan yang terdapat pada data untuk menghasilkan prediksi atau keputusan secara otomatis.

A. Dasar Teori

1. Paradigma dan Jenis Machine Learning
Machine Learning (ML) merupakan cabang dari kecerdasan buatan yang memungkinkan sistem belajar dari data tanpa instruksi langsung. Alih-alih mengikuti aturan tetap, ML membangun model berdasarkan pola yang ditemukan dalam data. Secara umum, terdapat tiga pendekatan utama dalam ML, yaitu Supervised Learning, Unsupervised Learning, dan Reinforcement Learning, yang dibedakan berdasarkan cara model memperoleh pengetahuan dari data.

    a) Supervised Learning
Pendekatan ini menggunakan data yang telah berlabel, yakni data dengan target atau jawaban yang sudah diketahui. Model dilatih untuk memahami hubungan antara input (fitur) dan output (label), kemudian digunakan untuk memprediksi hasil dari data baru. Misalnya, dalam prediksi harga rumah, model belajar dari data seperti luas bangunan, lokasi, dan jumlah kamar untuk memperkirakan harga. Setelah pelatihan, model dapat memperkirakan harga rumah lain dengan karakteristik serupa. Supervised learning umumnya digunakan untuk tugas klasifikasi (misalnya deteksi email spam) maupun regresi (seperti prediksi harga pasar).

    b) Unsupervised Learning
Pendekatan ini bekerja dengan data tanpa label, di mana model berusaha menemukan pola atau struktur tersembunyi di dalam data. Contohnya pada segmentasi pelanggan, data seperti frekuensi pembelian dan nilai transaksi dikelompokkan menggunakan algoritma seperti K-Means atau PCA tanpa informasi kelompok sebelumnya. Metode ini banyak digunakan untuk clustering, deteksi anomali, serta reduksi dimensi data yang kompleks.

    c) Reinforcement Learning
Pendekatan ini berfokus pada proses pembelajaran melalui interaksi dengan lingkungan. Agen melakukan tindakan dan menerima umpan balik berupa reward atau punishment, dengan tujuan memilih strategi terbaik dalam jangka panjang. Contoh penerapannya adalah AlphaGo, yang belajar bermain dengan menghadapi dirinya sendiri. Reinforcement learning juga banyak diterapkan dalam robotika dan sistem kontrol otomatis karena mampu beradaptasi terhadap kondisi dinamis, meski memerlukan proses pelatihan yang lama dan sumber daya besar.

2. Statistik Deskriptif untuk Data Science

Dalam proses membangun model machine learning, memahami data adalah langkah pertama yang sangat penting. Salah satu cara untuk memahami data adalah dengan menggunakan statistik deskriptif, yaitu cabang statistik yang berfungsi untuk menggambarkan dan merangkum data agar lebih mudah dipahami. Statistik deskriptif membantu kita melihat pola umum, tren, maupun penyimpangan dalam data sebelum melangkah ke tahap analisis yang lebih kompleks. Ada beberapa konsep utama dalam statistik deskriptif yang perlu dipahami oleh calon praktisi data science:

    a) Measures of Central Tendency (Ukuran Pemusatan Data)
Ukuran pemusatan data menunjukkan nilai tengah atau nilai yang paling mewakili sekumpulan data. Ada tiga ukuran utama yang sering digunakan:

  • Mean (rata-rata): diperoleh dengan menjumlahkan seluruh nilai kemudian membaginya dengan jumlah data. Mean sangat umum digunakan, tetapi sensitif terhadap nilai ekstrem (outlier).

  • Median (nilai tengah): nilai yang berada tepat di tengah setelah data diurutkan. Median tidak terpengaruh oleh outlier, sehingga lebih mewakili pusat data jika ada nilai ekstrem.

  • Modus (nilai yang paling sering muncul): menunjukkan nilai yang paling banyak muncul dalam kumpulan data. Modus berguna untuk data kategorik atau diskrit.

    b) Measures of Spread (Ukuran Penyebaran Data)
Selain mengetahui pusat data, penting juga memahami seberapa tersebar data di sekitar pusat tersebut. Ukuran penyebaran membantu menilai homogenitas atau keragaman data. Beberapa ukuran utama adalah:

  • Range (jangkauan): selisih antara nilai terbesar dan terkecil.

  • Varians: rata-rata dari kuadrat selisih tiap nilai terhadap mean. Varians menunjukkan seberapa besar penyebaran data secara keseluruhan.

  • Standar Deviasi: akar dari varians. Ukuran ini sering dipakai karena berada pada satuan yang sama dengan data aslinya, sehingga lebih mudah diinterpretasikan.

    c) Percentiles & Quartiles (Posisi Data dalam Distribusi)
Percentile menunjukkan posisi relatif suatu nilai dalam distribusi data. Misalnya, jika seorang siswa berada pada persentil ke-90, artinya ia memiliki nilai lebih tinggi daripada 90% siswa lainnya. Quartiles membagi data menjadi empat bagian yang sama besar. Q1 adalah nilai di bawah 25% data, Q2 (median) berada di tengah (50%), dan Q3 di bawah 75% data. Ukuran ini digunakan untuk membuat box plot dan mendeteksi outlier.

    d) Skewness & Kurtosis (Bentuk Distribusi Data)
Selain pusat dan penyebaran, bentuk distribusi data juga penting dipahami.

  • Skewness (kemencengan): mengukur seberapa simetris data terhadap mean. Jika skewness positif, data condong ke kanan (banyak nilai kecil, sedikit nilai besar); jika negatif, condong ke kiri.

  • Kurtosis: mengukur seberapa “runcing” puncak distribusi dibanding distribusi normal. Nilai kurtosis tinggi menunjukkan puncak yang tajam dan banyak nilai ekstrem, sedangkan kurtosis rendah menunjukkan puncak yang landai.

Memahami statistik deskriptif membantu kita mengenali karakteristik dasar data sebelum membangun model machine learning. Tanpa pemahaman ini, kita berisiko salah menafsirkan pola, sehingga model yang dibangun bisa kurang akurat. Oleh karena itu, statistik deskriptif adalah fondasi penting dalam Data Science dan analisis data.

3. Memahami Distribusi Data
Setelah mengetahui ukuran pemusatan dan penyebaran data, langkah penting selanjutnya adalah memahami bagaimana data didistribusikan. Distribusi mencerminkan pola penyebaran nilai dalam dataset.

    a) Distribusi Normal
Distribusi normal atau distribusi Gauss memiliki bentuk simetris menyerupai lonceng, di mana sebagian besar data terpusat di sekitar nilai rata-rata (mean). 

b) Central Limit Theorem (CLT)
CLT menjelaskan bahwa rata-rata dari banyak sampel acak dari suatu populasi akan membentuk distribusi mendekati normal, terlepas dari distribusi awal populasi tersebut. 

  • Distribusi Uniform: memberikan peluang sama besar untuk semua nilai dalam rentang tertentu, misalnya pada lemparan dadu.

  • Distribusi Binomial: digunakan pada data diskrit dengan dua kemungkinan hasil, seperti sukses atau gagal.

  • Distribusi Poisson: memodelkan jumlah kejadian dalam waktu tertentu, seperti jumlah pelanggan per jam.

  • Distribusi Eksponensial: menggambarkan waktu antar kejadian, misalnya waktu tunggu kedatangan kendaraan.

4. Exploratory Data Analysis (EDA)

Sebelum memulai proses pemodelan machine learning, penting untuk memahami karakteristik data secara menyeluruh melalui tahapan Exploratory Data Analysis (EDA). EDA merupakan fase awal dalam alur kerja data science yang bertujuan mengeksplorasi struktur data, mengidentifikasi pola, mendeteksi anomali, dan menguji hubungan antar variabel. Fokus EDA bukan pada pembuatan statistik, melainkan membangun pemahaman intuitif yang menjadi dasar strategi analisis dan pemodelan selanjutnya.

Dengan melakukan EDA, praktisi data dapat menentukan teknik praproses yang sesuai, memilih algoritma yang tepat, dan menghindari kesalahan umum seperti penggunaan fitur yang tidak relevan atau bias data. Umumnya, EDA dilakukan melalui tiga pendekatan utama:

    a) Univariate Analysis:
Analisis ini fokus pada satu variabel dalam dataset untuk memahami distribusinya. Teknik yang digunakan antara lain:

  • Histogram – menggambarkan distribusi numerik dengan bentuk frekuensi.

  • Bar Chart – menunjukkan frekuensi antar kategori untuk data kategorikal.

Melalui pendekatan ini, kita dapat mengidentifikasi outlier, sebaran data, dan tren nilai-nilai sekelompok.

    b) Bivariate Analysis:
Pendekatan ini mengevaluasi hubungan antara dua variabel, baik numerik maupun kombinasi numerik dan kategorikal. 

    c) Multivariate Analysis: dilakukan untuk memahami interaksi antar lebih dari dua variabel secara simultan. Teknik yang sering digunakan meliputi:

  • Correlation Matrix – menunjukkan kekuatan hubungan antar pasangan fitur.

  • Heatmap – memvisualisasikan korelasi dengan gradasi warna.

  • Pair Plot – menampilkan plot sebaran pasangan fitur dalam satu grid.

Melalui pendekatan ini, kita dapat mengidentifikasi fitur yang saling tumpang tindih maupun saling melengkapi, sehingga membantu proses seleksi fitur secara lebih efektif.

5. Probabilitas dalam Konteks Data Science

Probabilitas merupakan landasan penting dalam dunia data science dan machine learning. Banyak algoritma yang berakar pada penghitungan klasifikasi, inferensi, dan pengambilan keputusan, dibangun atas konsep peluang. Dengan pemahaman probabilitas, praktisi data dapat mengelola ketidakpastian, melakukan prediksi, serta menilai tingkat kepercayaan terhadap hasil analisis.

    a) Konsep Dasar Peluang

Peluang mengukur seberapa besar kemungkinan suatu kejadian terjadi, dinyatakan dalam rentang 0 hingga 1. Nilai 0 berarti kejadian mustahil, sedangkan 1 berarti kejadian pasti terjadi. 

    b) Conditional Probability (Peluang Bersyarat)

Conditional probability adalah peluang suatu kejadian dengan syarat bahwa kejadian lain sudah terjadi. Ini penting karena dalam pemodelan data tidak berdiri sendiri, melainkan saling berkaitan.

    c) Bayes’ Theorem (Teorema Bayes)

Teorema Bayes adalah konsep kunci yang menjelaskan bagaimana kita memperbarui peluang suatu hipotesis berdasarkan bukti baru. 

6. Storytelling dengan Data

Data yang akurat belum tentu efektif jika tidak disampaikan dengan cara yang jelas dan mudah dipahami. Di sinilah pentingnya storytelling dalam penyajian data. Storytelling dengan data bukan hanya soal membuat grafik menarik, melainkan juga membangun narasi yang logis dan persuasif berdasarkan bukti data. Dalam praktik data science, kemampuan mengomunikasikan hasil analisis secara visual dan naratif sangat penting agar informasi yang diperoleh bisa dipahami dan ditindaklanjuti oleh para pengambil keputusan.

    a) Prinsip Visualisasi yang Efektif
Visualisasi yang baik menyederhanakan kompleksitas data dan menyoroti pesan utama. Beberapa prinsip kuncinya:

  • Fokus dan sederhana – hindari elemen visual berlebihan, cukup gunakan warna dan label seperlunya.

  • Kontekstual – tambahkan judul, keterangan, dan satuan yang relevan untuk memperjelas isi grafik.

  • Konsisten – pertahankan gaya visual, warna, dan skala yang seragam di seluruh grafik.

  • Tegas – pastikan pesan utama langsung terlihat tanpa perlu interpretasi rumit.

    b) Memilih Grafik Sesuai Tipe Data
Pemilihan grafik tepat memengaruhi seberapa jelas pesan data tersampaikan kepada audiens. Beberapa panduan umum:

  • Data kategorik → gunakan bar chart atau pie chart.

  • Data numerik → gunakan histogram untuk distribusi.

  • Dua variabel numerik → scatter plot untuk melihat korelasi.

  • Data waktu → line chart untuk tren dari waktu ke waktu.

  • Banyak variabel → heatmap atau pair plot.

Dengan visualisasi yang tepat, hasil analisis dapat dikomunikasikan secara menarik dan informatif sesuai dengan tujuan penyajian data.

    c) Kesalahan Umum dalam Visualisasi
Meskipun terlihat sederhana, visualisasi data sering kali mengandung kesalahan yang menyesatkan. Beberapa kesalahan umum meliputi:

  • Memotong sumbu yang membuat perbedaan tampak lebih ekstrem.

  • Menggunakan warna atau efek berlebihan yang mengalihkan perhatian.

  • Menyajikan data tanpa konteks, seperti tanpa skala atau pembanding.

  • Menyalahgunakan proporsi, misalnya pie chart yang tidak utuh.


B. LATIHAN&TUGAS

1. Pemahaman Paradigma Machine Learning

    a) Jelaskan perbedaan mendasar antara Supervised Learning, Unsupervised Learning, dan Reinforcement Learning dalam hal jenis data masukan, tujuan pembelajaran, dan contoh kasus aplikasinya.

  • Supervised Learning menggunakan data berlabel, tujuannya untuk memprediksi hasil berdasarkan pola dari data lama.
    Contoh: memprediksi harga rumah dari data lokasi dan ukuran.

  • Unsupervised Learning memakai data tanpa label, tujuannya menemukan pola tersembunyi atau pengelompokan data.
    Contoh: mengelompokkan pelanggan berdasarkan kebiasaan belanja.

  • Reinforcement Learning belajar dari interaksi dengan lingkungan melalui sistem hadiah (reward) dan hukuman (punishment).
    Tujuannya mendapatkan strategi terbaik melalui percobaan berulang.
    Contoh: robot belajar berjalan atau AI yang bermain game.

    b) Berikan 2 contoh kasus nyata (dunia bisnis atau kehidupan sehari-hari) yang cocok untuk masing-masing paradigma (total 6 contoh).

  • Supervised Learning:

    1. Prediksi harga properti berdasarkan lokasi.

    2. Deteksi email spam.

  • Unsupervised Learning:

    1. Segmentasi pelanggan di toko online.

    2. Pengelompokan berita dengan topik serupa.

  • Reinforcement Learning:

    1. Robot otomatis belajar menghindari halangan.

    2. Sistem AI pada game (belajar strategi menang).

    c) Menurut Anda, mengapa Reinforcement Learning sering digunakan pada bidang robotika atau game? Jelaskan logikanya.


Karena pada robotika dan game, sistem perlu belajar dari pengalaman langsung. Reinforcement Learning cocok karena algoritmanya bekerja dengan menguji berbagai tindakan dan menerima umpan balik (reward/punishment) untuk memperbaiki keputusan di masa depan. Dengan begitu, AI bisa belajar strategi optimal secara mandiri.

    d) Buatlah diagram sederhana yang menggambarkan alur kerja (workflow) dari ketiga paradigma tersebut.



2. Fondasi Data & Statistik

a) Jelaskan perbedaan antara data terstruktur dan data tidak terstruktur, serta berikan masing-masing 3 contoh nyata.

  • Data terstruktur tersimpan dalam format tetap (seperti tabel atau database) dan mudah diolah komputer.
    Contoh: data penjualan bulanan, nilai ujian mahasiswa, data inventaris barang.

  • Data tidak terstruktur tidak memiliki format tetap dan sulit diolah langsung.
    Contoh: foto produk, rekaman suara pelanggan, teks ulasan di media sosial.

    b) Sebutkan dan jelaskan tahapan dalam siklus hidup data mulai dari pengumpulan hingga analisis.

Tahapannya meliputi:

  1. Pengumpulan data – mengambil data dari sumber (survey, sensor, database).

  2. Pembersihan data – menghapus data ganda, salah, atau kosong.

  3. Penyimpanan data – menyimpan dalam sistem database yang aman.

  4. Analisis data – menggunakan metode statistik atau machine learning untuk mencari pola.

  5. Visualisasi dan interpretasi – menyajikan hasil agar mudah dipahami untuk pengambilan keputusan.

    c) Mengapa kualitas data sangat penting dalam membangun model Machine Learning? Jelaskan konsep “garbage in, garbage out”.


Kualitas data sangat menentukan akurasi hasil model. Jika data yang digunakan tidak lengkap, salah, atau bias, maka hasil analisis juga akan keliru.
Konsep “garbage in, garbage out” berarti data buruk menghasilkan output yang buruk — tidak peduli seberapa bagus model atau algoritmanya.

    d) Jelaskan makna dari ukuran statistik berikut: mean, median, modus, varians, dan standar deviasi — dan beri contoh interpretasinya dalam konteks nilai ujian mahasiswa.


  • Mean (rata-rata): total nilai dibagi jumlah mahasiswa → menggambarkan nilai umum kelas.

  • Median: nilai tengah setelah semua nilai diurutkan → menunjukkan posisi tengah distribusi.

  • Modus: nilai yang paling sering muncul → menggambarkan nilai yang umum dicapai.

  • Varians: ukuran seberapa jauh penyebaran nilai dari rata-rata.

  • Standar deviasi: akar dari varians, menunjukkan seberapa besar perbedaan nilai antar mahasiswa.
    Contoh: jika standar deviasi tinggi, berarti nilai mahasiswa bervariasi; jika rendah, kemampuan mereka relatif sama.




Referensi
Sumber utama:
Modul Praktikum Machine Learning & AI, disusun oleh Adi Muhamad Muhsidi (2025).
Program Studi Bisnis Digital Fakultas Ekonomi dan Bisnis, Universitas Kuningan. 

Atau dapat diakses langsung dari blog pribadi penulis di: https://adi-muhamad.my.id 

Komentar

Postingan Populer