🍃 Jangan Buru-Buru Install Airflow! Simplicity is Key.


Apache Airflow memang standar emas untuk orkestrasi data. Tapi, jujur saja: untuk tim kecil atau project awal, Airflow itu seringkali “Overkill”. Membangun infrastruktur raksasa hanya untuk menjalankan satu script Python sehari sekali itu ibarat membunuh nyamuk pakai bazoka. 🦟💥

Artikel dari Data Engineering Central ini mengingatkan kita untuk kembali menapak bumi. Mari kita bedah strateginya! 👇

🛑 1. The Problem (Masalah Utama)
Banyak Data Engineer terjebak fenomena “Resume Driven Development”. Kita mengadopsi Airflow karena populer, bukan karena butuh.
🐘 Maintenance Hell: Airflow butuh webserver, scheduler, database, dan worker. Memelihara ini semua butuh effort besar.
🐌 Complex Dev Loop: Menulis, mengetes, dan men-deploy DAG di Airflow jauh lebih lambat daripada sekadar menjalankan script lokal.
🤯 Cognitive Load: Terlalu banyak abstraksi (Operators, Sensors, Hooks) untuk logika yang sebenarnya sederhana.

💡 2. Metodologi & Solusi: Start Stupidly Simple
Penulis menyarankan pendekatan bertahap. Jangan langsung lompat ke solusi enterprise jika masalahmu masih sederhana. Gunakan alat-alat primitif yang sudah teruji waktu.
🛠️ The Unix Way: Manfaatkan tools bawaan sistem operasi yang ringan dan stabil.
🔗 Decoupled Logic: Pisahkan logika bisnis (Python/SQL) dari logika penjadwalan. Jangan biarkan kodemu terlalu terikat (vendor lock-in) dengan framework orkestrator tertentu.

📈 3. Finding & Impact
Dengan menunda penggunaan Airflow sampai benar-benar dibutuhkan:
🚀 Faster Time-to-Market: Kamu bisa men-deploy pipeline data pertama dalam hitungan menit, bukan hari.
📉 Zero Ops: Tidak ada server orkestrator yang harus di-patch, di-scale, atau di-monitor di tengah malam.
🐛 Easier Debugging: Script error? Tinggal jalankan di terminal. Tidak perlu buka UI web yang lambat untuk cari log.

⚙️ 4. How to Use (Tangga Evolusi Orkestrasi)
Sebelum pip install apache-airflow, coba urutan solusi ini:
⏰ Level 1 – Cron: Gunakan crontab di server untuk tugas periodik sederhana. Gratis, stabil, ada di mana-mana.
📜 Level 2 – Shell Scripts & Makefiles: Gunakan bash untuk menyambung beberapa langkah (ETL) dan make untuk mendefinisikan dependensi antar tugas sederhana.
☁️ Level 3 – Cloud Native / CI Tools: Gunakan GitHub Actions, GitLab CI, atau AWS EventBridge untuk penjadwalan tanpa server (serverless).
🏗️ Level 4 – The Real Orchestrator: Baru pindah ke Airflow/Dagster/Mage JIKA (dan hanya jika) kamu butuh fitur kompleks seperti backfilling, visual lineage, atau complex retry logic.

📝 5. Key Takeaways
📉 YAGNI (You Aren’t Gonna Need It): Jangan membangun solusi untuk masalah yang belum kamu miliki.
🧩 Complexity is the Enemy: Kompleksitas infrastruktur mencuri waktu yang seharusnya dipakai untuk mengolah data (business value).
🔄 Evolutionary Architecture: Mulai dari skrip sederhana. Biarkan rasa “sakit” akibat skala yang membesar yang memaksamu pindah ke Airflow, bukan keinginan gaya-gayaan.

Ada yang tim “Cronjob Sejati” di sini? Atau sudah 100% Airflow? Share pengalaman kalian! 👇

🔗 Sumber Lengkap:
https://dataengineeringcentral.substack.com/p/all-you-can-do-before-airflow

#DataEngineering #ApacheAirflow #Orchestration #Python #DevOps #DataPipeline #KeepItSimple #TechStrategy #ETL

Leave a Comment