๐ Problem Statement
1. Pada tanggal 19โ20 Oktober 2025, AWS mengalami gangguan besar di region US-EAST-1 akibat kegagalan pada layanan Amazon DynamoDB.
2. Masalah bermula dari manajemen DNS otomatis DynamoDB yang memasang record yang kosong untuk endpoint regional dynamodb.us-east-1.amazonaws.com.
3. Karena banyak layanan AWS bergantung pada DynamoDB (misalnya peluncuran EC2, Lambda, Fargate), kegagalan ini menyebabkan gangguan berantai yang berlangsung hingga ~15 jam.
๐ ๏ธ Methodology / Solusi / Hypothesis
1. AWS menjelaskan bahwa sistem manajemen DNS terdiri dari dua komponen utama: โDNS Plannerโ yang membuat rencana, dan โDNS Enactorโ yang menerapkannya via Route 53.
2. Root cause: kondisi race condition antara dua Enactor. Enactor pertama terlambat, sementara Enactor kedua menerapkan rencana yang lebih baru dan kemudian melakukan clean-up sehingga Enactor pertama akhirnya menerapkan rencana lama โ record DNS endpoint DynamoDB jadi kosong.
3. Hipotesis: Dengan melakukan otomasi skala besar dan abstraksi untuk layanan infrastruktur inti, muncul fragilitas tersembunyiโketika terjadi deviasi kecil, efeknya bisa sangat besar.
๐ Findings / Results / Impact
1. Waktu gangguan sejauh ini dilaporkan hingga ~15 jam untuk beberapa layanan dan pelanggan.
2. Dampak meluas di banyak layanan AWS, termasuk peluncuran EC2, health-check NLB (Network Load Balancer), dan layanan-lain yang menggunakan DynamoDB sebagai metadata/state store.
3. AWS mengumumkan tindakan perbaikan:
Menonaktifkan sementara automasi DNS (DNS Planner & Enactor) secara global.
Memperkuat mekanisme throttling, memperkecil radius perubahan cepat pada NLB dan sistem provisioning EC2 untuk menghindari congestive collapse.
โ
Key Takeaways
1. Bahkan cloud besar seperti AWS bukan bebas dari โkesalahan kecilโ yang berdampak besarโtermasuk bug di sistem otomasi infrastruktur.
2. Ketergantungan pada satu region atau layanan metadata/state (seperti DynamoDB) meningkatkan risiko gangguan skala besar.
3. Observasi produksi: sistem otomasi dan abstraksi harus terus diuji dalam skala penuhโteori dan simulasi saja tak cukup.
4. Untuk tim arsitektur: perkuat redundansi, fallback path, dan kemampuan service grace ketika automasi gagal.
5. Perusahaan pengguna cloud sebaiknya mengevaluasi strategi multi-region/penyedia layanan dan memiliki rencana mitigasi terhadap gangguan hyperscaler.
Sumber:
https://www.infoq.com/news/2025/11/aws-dynamodb-outage-postmortem/
๐ #AWS #DynamoDB #CloudOutage #PostMortem #US-EAST-1 #DNSFailure #ReliabilityEngineering #CloudResilience #InfrastructureFragility