MODUL 3 : SUMBER DAN KLASIFIKASI DATA

 


A. DASAR TEORI

1. Sumber-Sumber Big Data

  • Big data sources (Publik dan media sosial): sumber eksternal masif, terubuka, dan tidak terstruktur (teks,gambar,video) dari platform seperti Twitter dan TikTok. Pengambilannya membutuhkan metode spesifik seperti API atau WEB Srraping.
  • Legacy Systems (sistem internal): sistem transaksioanl organisasi (HRIS, SCM, CRM, ERP) yang menyimpan data terstruktur dan Realitional Database (RDBMS). Data diakses melalui query SQL langsung atau melalui Service Bridge (API Internal).
  • Cloud Applications: Aplikasi Internal-native (Gojek atau Shopee) yang kaya akan data perilaku pengguna, diakses melalui integrasi API atau streaming data.

2. Open data dan Dataset Publik

    Open data merujuk pada data yang bebas diakses, digunakan , dan dibagikan tanpa batasan hak cipta yang ketat.
  • Satu data Indonesia: Inisiatif pemerintah melalui portal publik (data.go.id) yang menyediakan data format standar (CSV/JSON) dengan prinsiv gotong royong antar instansi.
  • Scientific Dataset: Dataset akademik gratis yang digunakan sebagai tolok ukur untuk melatik algoritma Machine Learning.

3. Klasifikasi Struktur Data

  • Data terstruktur : Memiliki model data pradefinisi, tersimpan rapi dalam RDBMS, dan mudah dicari menggunakan kueri SQL (data transkip, NIK).
  • Data Tidak Terstruktur :  Format tidak baku dan sangat beragam (teks bebas, audio, video), sehingga membutuhkan penyimpanan modern ( data lake) dan pra-pemrosesan khusus untuk mengekstrak maknanya.
  • Data Semi-Terstruktur : Memiliki penanda (tags/markers) pemisal elemen, meskipun tidak sekaku tabel relasional ( format JSON, XML).

4. Karakteristik Sumber Data Digital

    Praktisi data menggabungkan sumber tradisional yang statis (identitas, dokumen transaksi) dengan sumber big data yang dinamis ( jejak digital, media sosial, sensor IoT) untuk memecah silo data.

5. Pendekatan Berbasis Masalah

    Analisis harus dilakukan dengan membedah lapisan masalah:
  • Visualized Problem: Fenomena reaktif di permukaan yang ditangkap langsung oleh sensor (data mentah)
  • Pattren Problem : mengidentifikasi siklus atau korelasi sebab akibat langsung dari data histori.
  • Linked problem : masalah kompleks yang dipengaruhi oleh variabel lintas sektoral yang bertautan.
  • Deep problem : penyebab terdalam yang harus di pecahkan menggunakan machine learning untuk menghasilkan solusi yang tuntas dan berkelanjutan

B. PRAKTIKUM

Parktikum 3 :prak3

C. LATIHAN & TUGAS

I. LATIHAN

a). Jelaskan perbedaan mendasar antara sumber data Legacy Systems dan Cloud Applications! Sebutkan juga bagaimana pendekatan metode pengambilan data (data ingestion) untuk masing-masing sumber tersebut!

    1. Legacy Systems

  • Sistem lama yang biasanya berjalan di server lokal (on-premise).
  • Menggunakan teknologi lama dan database tradisional.
  • Akses data cenderung terbatas.
  • Integrasi dengan sistem modern lebih sulit.

    Metode Data Ingestion:

  • Batch processing (pengambilan data berkala).
  • ETL (Extract, Transform, Load).
  • File export seperti CSV atau database dump.
  • Koneksi langsung database (ODBC/JDBC).

    2. Cloud Applications

  • Aplikasi berbasis internet/cloud.
  • Data tersimpan di server online.
  • Mudah diakses dari mana saja.
  • Mendukung integrasi modern.

    Metode Data Ingestion:

  • API integration.
  • Streaming data real-time.
  • Webhook atau event-based ingestion.
  • Data pipeline otomatis.

b). Dalam Problem-Based Approach, mengapa seorang analis Big Data tidak boleh berhenti hanya pada level Visualized Problem dan Pattern Problem? Jelaskan urgensi menemukan Deep Problem (Akar Masalah)!

    Seorang analis Big Data tidak boleh berhenti pada tahap awal karena:

  1. Visualized Problem
    • Hanya menunjukkan gejala masalah.
    • Contoh: grafik error meningkat.
  2. Pattern Problem
    • Menemukan pola kejadian berulang.
    • Contoh: error sering terjadi malam hari.

    Jika berhenti di sini, solusi hanya bersifat sementara.

    Pentingnya Deep Problem

    Deep Problem adalah akar penyebab utama masalah.

    Urgensinya:

  • Menghindari solusi sementara.
  • Menghemat biaya operasional.
  • Mencegah masalah muncul kembali.
  • Membantu pengambilan keputusan strategis.

    Contoh:
    Bukan hanya “server lambat”, tetapi akar masalahnya bisa:

  • kapasitas server kurang,
  • overload pengguna,
  • desain sistem buruk.

c). Berikan masing-masing dua (2) contoh spesifik bentuk data untuk kategori:

  • Terstruktur (Structured)
  • Semi-Terstruktur (Semi-Structured)
  • Tidak Terstruktur (Unstructured)

di lingkungan sekitar Anda!

    1. Data Terstruktur

  • Data mahasiswa di database kampus (NIM, Nama, IPK).
  • Data transaksi kasir minimarket.

    2. Data Semi-Terstruktur

  • File JSON dari aplikasi mobile.
  • Email (memiliki format tetapi isi bebas).

    3. Data Tidak Terstruktur

  • Chat WhatsApp.
  • Foto kegiatan kampus atau video pembelajaran.
II. TUGAS

a). Klasifikasikan data berikut ke dalam kategori Terstruktur, Semi-Terstruktur, atau Tidak Terstruktur, serta berikan alasan singkatnya!

    1. Log percakapan (chat history) WhatsApp mahasiswa

        Kategori: Tidak Terstruktur
        Alasan: Berupa teks bebas tanpa format database tetap.

    2. Tabel relasional berisi NIM, Nama, dan IPK

        Kategori: Terstruktur
        Alasan: Data tersimpan dalam tabel dengan kolom jelas.

    3. File respons server kalender akademik format JSON

        Kategori: Semi-Terstruktur
        Alasan: Memiliki struktur key-value tetapi fleksibel.

b). Dari data chat ditemukan lonjakan kata kunci “error”, “lambat”, dan “gagal login” setiap Minggu malam. Gunakan kerangka Problem-Based Approach pada level:

  • Visualized Problem
  • Pattern Problem
  • Linked Problem
  • Deep Problem

    1. Visualized Problem
        Terjadi peningkatan keluhan error pada portal e-learning.

    2. Pattern Problem
        Keluhan selalu muncul:

  • setiap Minggu malam,
  • saat banyak mahasiswa mengakses sistem.

    3. Linked Problem
        Masalah berkaitan dengan:

  • deadline tugas,
  • banyak login bersamaan,
  • beban server meningkat.

    4. Deep Problem
        Akar masalah:

  • kapasitas server tidak mampu menangani lonjakan trafik,
  • sistem tidak memiliki auto-scaling,
  • manajemen performa aplikasi belum optimal.

c). Berikan satu contoh ide pemanfaatan Open Data untuk diintegrasikan ke dalam sistem analitik chatbot!

    Tim pengembang dapat menggunakan Open Data pendidikan dari pemerintah seperti:

    Dataset statistik mahasiswa nasional.

    Pemanfaatannya:

  • Membandingkan tingkat kelulusan program studi.
  • Memberi rekomendasi akademik otomatis.
  • Analisis tren bidang studi populer.
  • Membantu pengelola prodi mengambil keputusan kurikulum.

    Contoh:
    Chatbot dapat menjawab:

“Prospek lulusan Bisnis Digital meningkat berdasarkan data nasional.”

Komentar