🚀 Snowflake Outage: Update Software Timbulkan Masalah di 10 Region


Tanggal artikel: 19 Desember 2025

📝 Deskripsi Ringkas

Artikel ini melaporkan pemadaman (outage) besar pada platform data cloud Snowflake yang terjadi pada 16 Desember 2025. Pemadaman ini berlangsung selama 13 jam dan berdampak pada 10 dari 23 region global, melumpuhkan kemampuan pelanggan untuk menjalankan query atau ingest data akibat pembaruan skema database yang tidak kompatibel ke belakang (backward-incompatible).

⚠️ Problem Statement

Software Update Gagal: Pembaruan perangkat lunak terbaru Snowflake memperkenalkan perubahan skema database yang tidak kompatibel dengan versi sebelumnya (backward-incompatible).


Dampak Global: Kesalahan ini menyebabkan pesan error "SQL execution internal error" dan gangguan pada layanan Snowpipe di 10 region utama, termasuk AWS US West, AWS Europe, dan Azure East US 2.



Kegagalan Redundansi Regional: Arsitektur multi-region gagal melindungi pelanggan karena kegagalan bersifat logis (perubahan metadata/schema) yang menyebar lintas wilayah, bukan kegagalan fisik infrastruktur.


Waktu Pemulihan Lama: Estimasi awal pemulihan meleset, dengan beberapa region seperti Virginia membutuhkan waktu lebih lama, total pemadaman mencapai 13 jam.

🛠️ Solusi / Approach

Respons dan analisis awal dari Snowflake serta pakar industri:


Investigasi Awal: Snowflake mengidentifikasi bahwa paket rilis sebelumnya secara keliru mereferensikan field yang diperbarui dalam rilis baru, menyebabkan ketidakcocokan versi (version mismatch).


Tidak Ada Workaround Segera: Snowflake tidak menawarkan solusi sementara (workaround) selama kejadian, selain menyarankan failover ke region yang tidak terdampak bagi pelanggan yang memiliki replikasi aktif.


Analisis Akar Masalah (RCA): Snowflake berjanji merilis dokumen RCA dalam lima hari kerja.


Kritik Pakar: Analis menyarankan bahwa mekanisme staged rollout Snowflake gagal mendeteksi masalah ini karena perubahan skema yang tidak kompatibel sering kali mendegradasi fungsi secara bertahap sebelum ambang batas deteksi terlampaui.

📊 Findings / Results / Impact


Gangguan Operasional Masif: Pelanggan di 10 region tidak bisa melakukan aktivitas data kritis selama lebih dari setengah hari.


Kelemahan "Shared Contract": Kejadian ini mengungkap bahwa isolasi regional bersifat kondisional. Ketika metadata global yang menjadi "kontrak bersama" berubah secara tidak kompatibel, seluruh region yang bergantung menjadi rentan.



Tantangan Rollback: Mengembalikan keadaan (rollback) sulit dilakukan karena perubahan skema berinteraksi dengan beban kerja langsung dan state yang tersimpan di cache, membutuhkan validasi hati-hati untuk mencegah korupsi data sekunder.

⚙️ How to Implement (General Pattern)

Pelajaran bagi CIO dan tim teknis untuk meningkatkan resiliensi:

Evaluasi Ulang Redundansi: Pahami bahwa redundansi fisik (multi-region) tidak melindungi dari kegagalan logis (bad update/schema change).


Pertanyaan Perilaku Platform: Jangan hanya tanya "berapa persen uptime", tapi tanyakan "bagaimana perilaku platform saat asumsi gagal?" dan "seberapa cepat blast radius bisa dibatasi?".


Governance yang Ketat: Insiden ini dan pelanggaran keamanan sebelumnya menunjukkan perlunya tata kelola yang lebih ketat pada identitas dan kompatibilitas perubahan.

💡 Key Takeaways

Logical Failure > Physical Failure: Di era cloud, kegagalan logis (seperti bad update) sering kali lebih merusak dan sulit diisolasi daripada kegagalan perangkat keras.

Staged Rollout Bukan Jaminan: Penyebaran bertahap bisa gagal mendeteksi bug kompatibilitas yang dampaknya baru muncul saat komponen dengan versi berbeda berinteraksi di lingkungan produksi yang kompleks.

Resiliensi Butuh Definisi Baru: CIO perlu memandang keamanan dan stabilitas operasional sebagai satu kesatuan manajemen risiko, bukan silo terpisah.

🗣️ Bagaimana strategi Disaster Recovery Anda saat ini menangani kegagalan logis dari penyedia cloud? Apakah Anda memiliki rencana failover lintas-region atau bahkan lintas-cloud untuk sistem misi-kritis?

Sumber:
https://www.infoworld.com/article/4109586/snowflake-software-update-caused-13-hour-outage-across-10-regions.html

🏷️ #Snowflake #CloudOutage #DatabaseSchema #DataEngineering #CloudResilience #DevOps #ITManagement #DisasterRecovery

Leave a Comment