🚀 Amazon Web Services DynamoDB Outage Post-Mortem – US-EAST-1

📌 Problem Statement
1. Pada tanggal 19–20 Oktober 2025, AWS mengalami gangguan besar di region US-EAST-1 akibat kegagalan pada layanan Amazon DynamoDB.
2. Masalah bermula dari manajemen DNS otomatis DynamoDB yang memasang record yang kosong untuk endpoint regional dynamodb.us-east-1.amazonaws.com.
3. Karena banyak layanan AWS bergantung pada DynamoDB (misalnya peluncuran EC2, Lambda, Fargate), kegagalan ini menyebabkan gangguan berantai yang berlangsung hingga ~15 jam.

🛠️ Methodology / Solusi / Hypothesis
1. AWS menjelaskan bahwa sistem manajemen DNS terdiri dari dua komponen utama: “DNS Planner” yang membuat rencana, dan “DNS Enactor” yang menerapkannya via Route 53.
2. Root cause: kondisi race condition antara dua Enactor. Enactor pertama terlambat, sementara Enactor kedua menerapkan rencana yang lebih baru dan kemudian melakukan clean-up sehingga Enactor pertama akhirnya menerapkan rencana lama → record DNS endpoint DynamoDB jadi kosong.
3. Hipotesis: Dengan melakukan otomasi skala besar dan abstraksi untuk layanan infrastruktur inti, muncul fragilitas tersembunyi—ketika terjadi deviasi kecil, efeknya bisa sangat besar.

📊 Findings / Results / Impact
1. Waktu gangguan sejauh ini dilaporkan hingga ~15 jam untuk beberapa layanan dan pelanggan.
2. Dampak meluas di banyak layanan AWS, termasuk peluncuran EC2, health-check NLB (Network Load Balancer), dan layanan-lain yang menggunakan DynamoDB sebagai metadata/state store.
3. AWS mengumumkan tindakan perbaikan:
Menonaktifkan sementara automasi DNS (DNS Planner & Enactor) secara global.
Memperkuat mekanisme throttling, memperkecil radius perubahan cepat pada NLB dan sistem provisioning EC2 untuk menghindari congestive collapse.

✅ Key Takeaways
1. Bahkan cloud besar seperti AWS bukan bebas dari “kesalahan kecil” yang berdampak besar—termasuk bug di sistem otomasi infrastruktur.
2. Ketergantungan pada satu region atau layanan metadata/state (seperti DynamoDB) meningkatkan risiko gangguan skala besar.
3. Observasi produksi: sistem otomasi dan abstraksi harus terus diuji dalam skala penuh—teori dan simulasi saja tak cukup.
4. Untuk tim arsitektur: perkuat redundansi, fallback path, dan kemampuan service grace ketika automasi gagal.
5. Perusahaan pengguna cloud sebaiknya mengevaluasi strategi multi-region/penyedia layanan dan memiliki rencana mitigasi terhadap gangguan hyperscaler.

Sumber:
https://www.infoq.com/news/2025/11/aws-dynamodb-outage-postmortem/

🔖 #AWS #DynamoDB #CloudOutage #PostMortem #US-EAST-1 #DNSFailure #ReliabilityEngineering #CloudResilience #InfrastructureFragility

Share this:

Leave a Comment Cancel reply