BAB 5 : WORKFLOW DAN PROSES BIG DATA
A. DASAR TEORI
1. Big Data Workflow
Data dalam big data dipandang sebagai aliran (stream) yang terus bergerak, bukan entitas statis. Workflow adalah standar oprasional terintegrasi untuk mencegah proyek terjebak dalam tumpukan data mentah tanpa arah (data swamp). Tahapannya :
- Data Discovery (identifikasi sumber data)
- Akses data sumber (membangun jalur koneksi seperti API)
- Data ingestion (pengambilan data ke dalam lingkungan big data)
- Big data sstorage (penyimpanan skala besar seperti HDFS atau Data lake)
- serving layer (analisis dan penyajian wawasan melalui dashboard.
2. Big Data Processing Pipeline
Pipeline adalah serangkaian elemen pemrosesan data yang di hubungkan secara seri untuk mengubah data berserakan (scattered) menjadi kebijakan berbasis bukti (evidence based policy). Arsitektur proses ini terdiri dari data ingestion, workflow data sore, data processing unit, analytic dan visualization & discovery.
5 tahapan arsitektur proses :
1. Data ingestion (pengumpulan & penarikan): ini adalah pintu gerbang utama. penarikan data bisa dilakukkan secara batch (berkala), real time(seketika) atau event driven (berdasarkan pemicu tertentu.
2. Workflow data store (penyimpanan alur kerja):Big data mewajibkan penyimpanan yang persisten, data disimpan dalam jangka waktu lama agar bisa di observasi kembali atau dieksekusi ulang sewaktu-waktu mirip dengan cara kerja mesin pencarian yang menyimpan indeks miliaran situs web.
3. Data Processing unit: Tahap dimana pembersihan terjadi, data mentah disiapkan dan algoritma awal mulai bekerja untuk mengenali pola-pola awal dari tumpukkan data yang masif.
4. Analytic: Fase eksekusi algoritma yang telah dirancang dijalankan untuk menjawab pertanyaan spesifik bisnis, misalnya: "produk apa yang paling mungkin dibeli oleh pengguna di bulan depan?".
5. Visualization & Discovery: Data adalah bahassa mesin, visual adalah bahasa manusia. Tahap ini menjembatani hasil komputasi yang rumit menjadi grafik atau dashboard yang mudah dipahami untuk menemukan tren atau solusi nyata.
3. Data Ingestion
Ini adalah mekanisme pengiriman data dari sumber ke target penyimpanan, sekaligus menjadi titik kritis awal. Data siserap dari berbagai tipologi sumber seperti IoT, data lakes dll menuju target penyimpanan yang aman.
4. Batch Processing
Pengumpulan data berdasarkan jadwal atau interval waktu tertentu, idealnya untuk volume masif yang tidak membutuhkan respons seketika.Proses ini dikendalikan oleh pemicu (trigger) berupa interval waktu, jadwal spesifik atau kejadian tertentu.
langkah-langkah arsitektur batch untuk menjamin validitas data:
1. Autentuikasi: Langkah pertama verifikasi keamanan. sistem big data harus membuktikan identitasnya agar diizinkan masuk ke portal sumber data.
2. Pembuatan dataset: menentukan dengan spesifik kolom,tabel atau file mana saja yang akan ditarik.
3. Definisi batch: disini big data engineer menentukan aturan mainnya: "tarik data dari tabel transaksi hanya untuk record yang dibuat setelah jam 12 malam tadi."
4. Eksekusi dan pengiriman: setelah syarat terpenuhi data dikirim secara masif ke data warehouse atau data mart untuk siap diolah.
5. Real-Time Processing
Pemrosesan instan (near real-time) untuk aliran data yang tanpa henti (continous streaming), krusial untuk sensor IoT,media sosial, atau deteksi transaksi fintech. Sistem ini mengandalkan mekanisme Change data captur yang secara aktif memonitor dan seketika menangkap perubahan data baru tanpa harus menarik seluruh basis data.
a. Mekanisme change data capture (CDC)
CDC adalah sekumpulan teknologi yang bekerja seperti "mata-mata" yang sangat aktif:
- Memonitor perubahan
- Menangkap seketika
- Pengiriman instan
b. Continuous streaming dan data Time series
Proses ini didukung oleh teknologi seperti apache kafka, amazon kinesis dll. Formatnya yang sering kali berbentuk time series. Data time series adalh urutan data yang dicatat berdasarkan interval waktu tertentu secara berurutan.
c. Real-Time vs Near real time
Perbedaan utama antara Real-Time dan Near Real-Time terletak pada kecepatan pemrosesan data dan toleransi penundaan (latensi). Real-time memberikan data secara instan (milidetik), sedangkan near real-time memproses data dengan penundaan beberapa detik hingga menit.
6. Lambda Architecture
Adalah pendekatan desain hibrida yang mengombinasikan batch dan real time, terdiri dari 3 lapisan:
- Batch layer
- Speed layer
- Serving layer
7. Big Data Sebagai Refined Modeling system
Pada tahap tertinggi, big data bermutasi menjadi mesin inti yang memodelkan kebiasaan sosial, merancang operasional dan menyempurnakan sistem kehidupan nyata secara otomatis. Transformasi analitik dan deskriptif hingga kognitif menuntun pergeseran arsitektur agar sistem lebih terstruktur dan andal.
Komentar
Posting Komentar