🚀 Uber MySQL HA: Mengadopsi MGR di Skala Raksasa

Tanggal Berita: 4 Desember 2025

Uber membagikan detail teknis bagaimana mereka mengimplementasikan MySQL Group Replication (MGR) untuk mengubah arsitektur database mereka dari failover reaktif menjadi sistem berbasis konsensus yang beroperasi secara otomatis.

🚧 Problem Statement: Arsitektur Rapuh & Intervensi Manual
Sebelumnya, infrastruktur MySQL Uber bergantung pada sistem failover eksternal yang reaktif. Pendekatan ini memiliki kelemahan fatal.

💔 Split-brain Scenarios Risiko tinggi di mana dua node berbeda menganggap diri mereka sebagai primary secara bersamaan, menyebabkan kerusakan data.

Seringnya insiden mengharuskan engineer untuk turun tangan secara manual (high touch) untuk memulihkan kluster. Selain itu, ada risiko inkonsistensi data yang tinggi saat sinkronisasi terputus selama proses failover darurat. Tujuannya jelas: membangun sistem yang self-healing, mampu menangani onboarding node secara otomatis, dan menjamin konsistensi data yang ketat.

🛠️ Solusi: MGR & Otomatisasi Control Plane
Uber mengadopsi MGR dengan mode Single-Primary dalam grup konsensus 3-node berbasis Paxos. Namun, tantangan utamanya adalah operasional di skala besar. Solusinya adalah membangun control plane otomatis yang canggih.

🤖 Onboarding Otomatis Tim Uber membangun workflow satu-klik untuk mem-bootstrap node pertama yang sehat, lalu menambahkan dua node lainnya secara otomatis. Mereka menerapkan konfigurasi ketat: group_replication_paxos_single_leader: ON untuk mode Single-Primary, dan group_replication_member_expel_timeout: 0 untuk segera mendepak member yang bermasalah tanpa ampun.

⚖️ Rebalancing Workflow Sistem terus memantau jumlah node dalam grup konsensus secara real-time. Jika node berjumlah pas (3 node), sistem diam (Steady State). Jika berlebih (>3 node), sistem otomatis membuang (offboard) node sekunder untuk efisiensi. Sebaliknya, jika kurang (<3 node), sistem segera mencari kandidat node baru dan memasukkannya ke grup untuk menjaga redundansi.

🔄 Node Replacement Saat node perlu diganti (misal karena pemeliharaan), sistem secara anggun (gracefully) mengeluarkan node lama dari konsensus. Node baru diinisialisasi sebagai read replica biasa terlebih dahulu, baru kemudian Rebalancing Workflow mendeteksi kekurangan jumlah member dan menariknya masuk ke grup konsensus secara otomatis.

⚡ Findings: Konsistensi vs Ketersediaan
Dalam skenario failover primary, Uber membuat keputusan arsitektural yang tegas: memilih Konsistensi Data di atas kecepatan ketersediaan instan.

🛡️ Strict Consistency Mereka mengubah parameter group_replication_consistency dari default EVENTUAL menjadi BEFORE_ON_PRIMARY_FAILOVER.

⏳ Trade-off Dampaknya adalah saat primary baru terpilih, ia akan memblokir semua trafik aplikasi sampai semua backlog transaksi dari primary lama selesai diaplikasikan. Uber rela menerima sedikit waktu downtime tambahan ini demi jaminan mutlak bahwa data yang dibaca aplikasi dari primary baru adalah 100% akurat dan mutakhir (strict external consistency).

⚙️ How to Use: Best Practices Implementasi
Jika Anda berencana mengadopsi MGR di lingkungan produksi, perhatikan dua hal krusial ini.

📊 Monitor Memori MGR memakan memori lebih banyak daripada replikasi biasa karena adanya buffering transaksi. Anda wajib memantau instrumen memory/group_replication di Performance Schema untuk melakukan sizing server yang tepat agar tidak kehabisan memori.

⚠️ Hati-hati dengan Bootstrap Jangan sembarangan menjalankan perintah bootstrap. Uber menggunakan verifikasi dua langkah yang ketat—pengecekan status node internal ditambah konfirmasi dari routing layer—sebelum mengizinkan bootstrap terjadi. Ini adalah pengaman vital untuk mencegah bencana split-brain.

🗝️ Key Takeaways
🧱 Automated Healing Sistem database modern tidak hanya harus bisa mendeteksi kegagalan, tetapi juga harus bisa memperbaiki dirinya sendiri (rebalancing) tanpa perlu membangunkan engineer di tengah malam.

🤝 Konsistensi > Kecepatan Untuk sistem finansial atau operasional kritis seperti Uber, menunggu beberapa detik saat failover jauh lebih baik daripada menyajikan data yang salah atau usang kepada pengguna.

📉 Abstraksi Kompleksitas Plugin MGR berhasil menyembunyikan kerumitan algoritma pemilihan leader (Paxos), memungkinkan tim engineering fokus pada logika operasional level tinggi seperti onboarding dan replacement.

💬 Interaksi Pembaca
Apakah database MySQL Anda saat ini sudah menggunakan replikasi berbasis konsensus yang cerdas, atau Anda masih mengandalkan skrip failover manual yang membuat Anda was-was setiap kali ada gangguan jaringan?

Sumber:
https://www.uber.com/en-NL/blog/improving-mysql-cluster-uptime-part2/

#MySQL #DatabaseEngineering #HighAvailability #DistributedSystems #UberEngineering #SRE #Automation #DevOps #TechCaseStudy #DataConsistency

Share this:

Leave a Comment Cancel reply