Banyak yang mikir kerjaan Data Analyst itu cuma buka Excel atau bikin grafik di Tableau. SALAH BESAR! π
ββοΈ
Itu cuma bagian kecil. Proses aslinya adalah maraton 20 langkah. Kalau kamu cuma jago visualisasi tapi gak paham bisnis (Langkah 1) atau evaluasi model (Langkah 14), analisismu gak akan kepakai.
Berdasarkan workflow di gambar, mari kita bedah detailnya:
FASE 1: MENERIMA PESANAN (Business Understanding) π§
Target: Memastikan analisis menjawab masalah yang benar.
1οΈβ£ Define Business Objective (Tujuan)
* π§ Konsep: Apa masalahnya? “Omzet turun” atau “Customer kabur”?
* π Deep Dive: Menentukan Success Metric (KPI). Apakah sukses itu artinya Revenue naik 10% atau Cost turun 5%? Paham bedanya Lagging Indicator (masa lalu) vs Leading Indicator (prediksi masa depan).
* π Output: Dokumen Project Charter dengan definisi masalah yang tajam.
2οΈβ£ Stakeholder Involvement (Diskusi)
* π§ Konsep: Siapa yang butuh data ini? Marketing? CEO?
* π Deep Dive: Melakukan Requirement Gathering. Membedakan antara “Apa yang user inginkan” vs “Apa yang user butuhkan”.
* π Output: Daftar User Requirement Document (URD).
3οΈβ£ Hypothesis Development (Dugaan Awal)
* π§ Konsep: Tebakan terpelajar. “Penjualan turun mungkin karena harga kemahalan.”
* π Deep Dive: Menyusun hipotesis statistik (H_0 vs H_1). Menentukan jenis uji yang akan dipakai nanti (T-test, ANOVA, Chi-Square).
* π Output: List Hipotesis Prioritas.
4οΈβ£ Data Identification (Cari Bahan)
* π§ Konsep: Data apa yang dibutuhkan? Data Transaksi? Data Medsos?
* π Deep Dive: Menilai ketersediaan data (Data Availability) dan privasi (PII Compliance/GDPR). Apakah datanya ada di internal atau harus beli eksternal?
* π Output: Data Dictionary & Rencana Sumber Data.
FASE 2: BELANJA & CUCI BAHAN (Data Preparation) πͺ
Target: Membersihkan bahan kotor agar analisis valid.
5οΈβ£ Data Collection (Ambil Data)
* π§ Konsep: Mengumpulkan data dari Database, API, atau Excel.
* π Deep Dive: Teknik Querying (SQL Joins, Subqueries), Web Scraping (BeautifulSoup/Selenium), atau menyambungkan API. Paham beda Batch Processing vs Real-time Streaming.
* π Output: Raw Dataset (.csv, .json, database).
6οΈβ£ Data Integration (Gabung Data)
* π§ Konsep: Menyatukan data dari sumber berbeda (misal: Sales + Marketing).
* π Deep Dive: Mengatasi masalah skema yang beda (Schema Mapping). Mengelola Primary Key & Foreign Key agar join tidak Cartesian Product (duplikasi meledak).
* π Output: Merged Dataset yang utuh.
7οΈβ£ Data Cleaning (Bersih-bersih)
* π§ Konsep: Garbage In, Garbage Out. Hapus duplikat, perbaiki typo.
* π Deep Dive: Strategi Imputation (Isi data kosong dengan Mean/Median/Mode atau KNN). Mendeteksi ketidakkonsistenan format (misal: “JKT”, “Jakarta”, “DKI” disatukan).
* π Output: Clean Dataset siap olah.
8οΈβ£ Data Exploration (Cicip Awal)
* π§ Konsep: Cek distribusi data. Apakah ada anomali?
* π Deep Dive: Univariate & Bivariate Analysis. Cek Skewness (kemiringan data) dan Kurtosis. Deteksi Outlier menggunakan IQR atau Z-Score.
* π Output: Laporan Statistik Deskriptif & Plot Distribusi.
FASE 3: MERACIK BUMBU (Modeling Prep & Build) π¦
Target: Mengolah bahan bersih menjadi model cerdas.
9οΈβ£ Feature Engineering (Racik Bumbu)
* π§ Konsep: Membuat kolom baru yang lebih bermakna.
* π Deep Dive: One-Hot Encoding (Teks ke Angka), Binning (Umur jadi Kategori), Log Transformation (untuk data yang miring), Scaling (MinMax/StandardScaler).
* π Output: Dataset dengan fitur baru yang siap masuk algoritma.
π Data Sampling (Icip Sedikit)
* π§ Konsep: Mengambil sebagian data jika totalnya terlalu besar.
* π Deep Dive: Teknik Train-Test Split (80:20). Mengatasi data tidak seimbang (Imbalanced Data) dengan teknik SMOTE atau Undersampling.
* π Output: Data Latih (Train Set) dan Data Uji (Test Set).
1οΈβ£1οΈβ£ Algorithm Selection (Pilih Resep)
* π§ Konsep: Masalahnya apa? Prediksi angka (Regresi) atau Kelompok (Clustering)?
* π Deep Dive: Paham karakteristik algoritma. Kapan pakai Linear Regression (simpel, bisa dijelaskan) vs Neural Network (akurat, tapi blackbox).
* π Output: Keputusan pemilihan algoritma.
1οΈβ£2οΈβ£ Model Building (Masak!)
* π§ Konsep: Melatih komputer mengenali pola.
* π Deep Dive: Proses Training (Fitting). Memahami konsep Loss Function (apa yang diminimalkan) dan konvergensi model.
* π Output: File Model (.pkl, .h5) yang sudah terlatih.
FASE 4: QUALITY CONTROL (Evaluation) π₯
Target: Memastikan model akurat dan tidak bias.
1οΈβ£3οΈβ£ Data Visualization (Plating)
* π§ Konsep: Membuat grafik hasil.
* π Deep Dive: Memilih chart yang tepat. Scatter plot untuk korelasi, Boxplot untuk distribusi, Heatmap untuk matriks. Prinsip Data-Ink Ratio (jangan kebanyakan hiasan).
* π Output: Grafik visualisasi hasil model.
1οΈβ£4οΈβ£ Model Evaluation (Penilaian)
* π§ Konsep: Seberapa pintar modelnya?
* π Deep Dive: Metrik evaluasi yang tepat. Jangan pakai Accuracy untuk data timpang! Pakai F1-Score, AUC-ROC (Klasifikasi), atau RMSE/MAE (Regresi).
* π Output: Skor performa model.
1οΈβ£5οΈβ£ Model Tuning (Tambah Micin)
* π§ Konsep: Hasil kurang pas? Putar tombol settingannya.
* π Deep Dive: Hyperparameter Tuning menggunakan Grid Search atau Random Search. Mengatur Learning Rate, kedalaman pohon (Max Depth), dll.
* π Output: Model versi 2.0 yang lebih optimal.
1οΈβ£6οΈβ£ Model Validation (Ujian Akhir)
* π§ Konsep: Tes model dengan data baru yang belum pernah dilihat.
* π Deep Dive: Teknik K-Fold Cross Validation untuk memastikan model stabil, bukan cuma jago kandang (Overfitting).
* π Output: Laporan Validasi Final.
FASE 5: PENYAJIAN (Deployment & Action) π¨
Target: Mengubah angka menjadi keputusan bisnis.
1οΈβ£7οΈβ£ Insight Generation (Kesimpulan)
* π§ Konsep: Terjemahkan statistik jadi bahasa manusia.
* π Deep Dive: Menemukan Causal Inference (Sebab-Akibat), bukan cuma korelasi. Menghubungkan angka model dengan dampak Rupiah/Dollar.
* π Output: Poin-poin Actionable Insights.
1οΈβ£8οΈβ£ Decision Making (Keputusan)
* π§ Konsep: Eksekusi strategi bisnis.
* π Deep Dive: Analisis Cost-Benefit. Apakah biaya implementasi model lebih kecil dari keuntungan yang didapat? Manajemen risiko keputusan.
* π Output: Rekomendasi Strategis (Go/No-Go).
1οΈβ£9οΈβ£ Implementation (Penerapan)
* π§ Konsep: Pasang ke sistem nyata.
* π Deep Dive: MLOps. Deploy model sebagai API (FastAPI/Flask) atau Batch Job. Integrasi dengan aplikasi Frontend/Backend kantor.
* π Output: Fitur live di aplikasi.
2οΈβ£0οΈβ£ Continuous Monitoring (Pantau)
* π§ Konsep: Jangan ditinggal tidur! Cek kesehatan model.
* π Deep Dive: Memantau Data Drift (perubahan perilaku user) dan Model Decay (penurunan akurasi seiring waktu). Retraining otomatis jika performa turun.
* π Output: Dashboard Monitoring Real-time.
π‘ Pesan Penting:
Data Analyst pemula fokus di Coding & Visualisasi.
Data Analyst senior/expert fokus di Business Understanding (Fase 1) dan Actionable Insight (Fase 5). Karena kode hanyalah alat untuk mencapai tujuan bisnis.
π¬ Fase mana yang menurut kalian paling sulit dipelajari otodidak? π
#DataAnalytics #DataScience #Workflow #DeepDive #MachineLearning #BigData #CareerGuide #BelajarData #TechTalk #Roadmap #BusinessIntelligence