Pernah kebayang ribetnya Zalando (raksasa e-commerce Eropa) harus kirim laporan penjualan ke ribuan brand partner (seperti Adidas, Nike, dll) setiap hari?
ByteByteGo baru saja membongkar cara mereka meninggalkan “cara kuno” demi Zero-Copy Architecture. Ini bedahannya:
1. ⚠️ Problem Statement (Masalah)
* The “Export” Nightmare: Dulu, partner harus request data yang dikirim via CSV, FTP, atau API yang lambat.
* Data Basi: Karena butuh proses ekstraksi manual (ETL/Copying), data yang diterima partner seringkali sudah telat beberapa jam/hari.
* Biaya Mahal: Menyalin data yang sama berulang kali ke ribuan partner memakan biaya storage dan komputasi yang gila-gilaan.
2. 🛠️ Metodologi & Solusi
Zalando melakukan revolusi dengan mengadopsi Delta Sharing (Open Protocol for Secure Data Sharing) di atas platform Databricks.
* Zero-Copy Sharing: Alih-alih meng-copy file ke folder partner, Zalando memberikan “akses langsung” ke data live mereka yang ada di Cloud Storage (S3).
* Unified Governance: Menggunakan satu control plane untuk mengatur siapa boleh lihat tabel apa. Tidak ada lagi ghost files yang berceceran.
* Open Standard: Karena Delta Sharing protokol terbuka, partner bisa baca datanya pakai tools apa saja (PowerBI, Tableau, Pandas, Excel) tanpa perlu instal software khusus dari Zalando.
3. 📈 Findings & Hasil
* ⚡ Instant Insights: Partner mendapatkan data penjualan secara real-time. Begitu ada transaksi di Zalando, angka di dashboard partner langsung berubah.
* 🔒 Keamanan Ketat: Akses bisa dicabut kapan saja secara terpusat. Tidak ada file CSV yang “tertinggal” di laptop mantan karyawan partner.
* 💰 Efisiensi: Mengurangi biaya operasional data engineering secara drastis karena pipeline ETL untuk ekspor data dimatikan total.
4. 💡 Key Takeaways
* Stop Copying Data: Di era Big Data, memindahkan data adalah musuh utama latensi. Bring the compute to the data, not the data to the compute.
* Data as a Product: Zalando memperlakukan data bukan sebagai “log sampah”, tapi produk premium yang dijual kembali ke partner untuk membantu strategi bisnis mereka.
* Future of B2B: Pertukaran data antar perusahaan (B2B) akan beralih dari API/File-based ke Direct Lake Access.
💻 How to Use / Implement (Delta Sharing)
Tertarik menerapkan arsitektur “Zero-Copy” ini di kantormu? Teknologi ini Open Source!
Persiapan:
Pastikan datamu tersimpan dalam format Delta Lake (di atas S3/ADLS/GCS) dan menggunakan engine yang mendukung (seperti Apache Spark 3.2+ atau Databricks).
Langkah Implementasi (SQL Syntax):
* Enable Delta Sharing:
Pastikan konfigurasi server Spark sudah mengaktifkan spark.databricks.delta.sharing.enabled.
* Buat “Share” (Wadah Data):
CREATE SHARE sales_report_share
COMMENT ‘Data penjualan harian untuk partner’;
* Masukkan Tabel ke dalam Share:
Kamu bisa memilih tabel mana saja yang mau dibagi, tanpa meng-copy isinya.
ALTER SHARE sales_report_share
ADD TABLE sales_database.transactions;
* Buat Penerima (Recipient):
CREATE RECIPIENT partner_brand_a;
* Berikan Akses:
GRANT SELECT ON SHARE sales_report_share TO RECIPIENT partner_brand_a;
Outputnya adalah file kredensial kecil yang bisa kamu kirim ke Partner A. Mereka tinggal load file itu di PowerBI/Python untuk langsung connect ke data live kamu.
🔗 Sumber:
https://blog.bytebytego.com/p/how-zalando-delivers-real-time-insights
🏷️ #DataEngineering #SystemDesign #Zalando #DeltaSharing #Databricks #RealTimeAnalytics #BigData #Architecture