Tanggal Berita: 6 November 2025
Lak Lakshmanan membahas bagaimana gelombang "Agentic AI" (AI otonom) mengubah pekerjaan fundamental data engineering. Peran yang dulunya fokus pada normalisasi dan pemindahan data besar, kini bergeser menjadi kurasi konteks dan penyediaan infrastruktur untuk agen cerdas.
🚧 Problem Statement: Gravitasi yang Bergeser
Ada dua perubahan fundamental yang mengguncang dunia data:
📉 Pergeseran Model Pengguna:
Kita bergerak dari model "Builder-centric" (di mana engineer membuat dasbor statis untuk user) ke model "Viber-centric" (di mana user non-teknis berinteraksi langsung dengan data menggunakan bahasa alami lewat agen AI).
🧠 Pusat Gravitasi Baru:
Dulu, komputasi dipindahkan ke data karena data terlalu besar. Sekarang, LLM adalah pusat gravitasinya. Aplikasi AI dibangun di sekeliling model bahasa sebagai mesin penalaran (reasoning engine), bukan sekadar gudang penyimpanan data.
🛠️ 5 Prinsip Baru Data Engineering
Untuk bertahan dan relevan, Data Engineer harus mengadopsi lima prinsip baru:
1. Pikir Ulang ETL: Dari Normalisasi ke Konteks
Jangan terobsesi menormalisasi semua tabel hingga menjadi kepingan kecil. Agen AI justru kesulitan melakukan JOIN yang kompleks pada skema yang terlalu terpecah.
Saran: Pertahankan konteks asli data. Alih-alih hanya menyimpan angka "Jumlah Pinjaman", simpan juga paragraf penjelasan yang menyertainya agar agen bisa memahami nuansa data tersebut.
2. Kurasi > Koleksi
Di era Big Data, tujuannya adalah mengumpulkan data sebanyak mungkin. Di era In-Context Learning, tujuannya adalah kualitas contoh (exemplars).
Tugas Baru: Membangun "Example Store" berisi contoh data berkualitas tinggi, akurat, dan representatif untuk diajarkan kepada agen.
3. Infrastruktur "Agent-Ready"
Infrastruktur harus mendukung dua kemampuan inti agen: Persepsi (membaca data) dan Aksi (memanggil alat).
Tugas Baru: Mengaudit pola akses data. Pastikan API dan tools memiliki dokumentasi yang jelas agar agen bisa menemukannya dan menggunakannya tanpa friksi.
4. Kelola Artefak Agen sebagai Data Kelas Satu
Agen bukan hanya konsumen; mereka juga produsen data masif (keputusan, kode, log penalaran).
Tugas Baru: Perlakukan output agen sama seriusnya dengan data transaksi. Simpan log keputusan (decision logs) dan jejak penalaran (reasoning traces) untuk audit dan debugging.
5. Hubungkan Observasi ke Pelatihan
Tutup siklus antara pemantauan (observability) dan pelatihan ulang (retraining).
Tugas Baru: Membangun pipeline otomatis yang mendeteksi data drift atau umpan balik manusia, lalu memicu proses fine-tuning model secara otomatis.
🗝️ Key Takeaways
👩💻 Peran Baru:
Data Engineer tidak lagi hanya menjadi tukang pipa data. Mereka menjadi arsitek lingkungan di mana agen AI bisa bekerja mandiri.
🔄 Fleksibilitas:
Tinggalkan pola pikir workflow yang kaku dan telah ditentukan sebelumnya. Bangunlah infrastruktur yang fleksibel dan sadar konteks.
🎓 Kualitas Data:
Data yang "bersih" untuk manusia (dinormalisasi) mungkin tidak "bersih" untuk AI (kehilangan konteks). Pahami kebutuhan konsumsi data oleh LLM.
💬 Interaksi Pembaca
Apakah tim data Anda saat ini masih sibuk membersihkan tabel untuk dasbor yang jarang dibuka, atau sudah mulai membangun "taman bermain" data yang kaya konteks untuk agen AI perusahaan Anda?
Sumber:
https://ai.gopubby.com/what-it-means-to-get-your-data-ready-for-ai-518861a8f025
#DataEngineering #AgenticAI #ETL #LLMOps #DataInfrastructure #FutureOfWork #AIArchitecture #BigData #MachineLearning #TechTrends