πŸ“Œ Pinterest Engineering: Cara Cerdas Satukan Observability “Jadul” dengan AI & MCP



Pinterest baru saja membagikan rahasia dapur mereka tentang bagaimana menangani infrastruktur observability skala raksasa yang terpecah-pecah tanpa harus merombak ulang semuanya. Kuncinya? AI Agents dan Model Context Protocol (MCP).

🚧 Masalah: Mimpi Buruk Data Silo & Tech Debt

🧱 Infrastruktur Terfragmentasi: Sistem Pinterest dibangun sebelum standar modern seperti OpenTelemetry (OTel) ada. Akibatnya, logs, metrics, dan traces hidup di "pulau" yang berbeda-beda tanpa koneksi yang jelas.

😫 On-Call Fatigue: Saat terjadi insiden, engineer harus melompat-lompat antar dashboard dan tool yang berbeda untuk mencari akar masalah. Ini memakan waktu dan membingungkan, terutama bagi engineer baru.

πŸ›‘ Migrasi Mustahil: Merombak total infrastruktur raksasa mereka untuk mengikuti standar baru (seperti OTel) dinilai terlalu berisiko dan mahal.

πŸ› οΈ Solusi: "Tricorder Agent" & MCP Server

Daripada memperbaiki infrastruktur dasarnya, Pinterest membangun "jembatan pintar" menggunakan AI:

πŸ€– Model Context Protocol (MCP): Mereka membangun MCP Server internal. Ini bertindak sebagai "kotak perkakas" standar bagi AI Agent untuk mengakses data dari berbagai sumber (ChangeFeed, Metrics, Logs, Alert) secara bersamaan.

🧠 Tricorder Agent: Sebuah agen AI yang menggunakan toolset MCP tersebut. Cukup beri link alert, dan agen ini akan otomatis mengumpulkan data relevan, mengecek dependency graph, dan memberikan hipotesis penyebab masalah.

πŸ“‰ Mengatasi Context Limit: Karena data Pinterest terlalu besar (3 miliar data point/menit!), mereka menggunakan strategi cerdas: Agen tidak menarik semua data mentah, tapi menghasilkan deep link ke dashboard yang sudah difilter, atau menggunakan LLM perantara untuk meringkas data sebelum disajikan.

βœ… Findings & Dampak

πŸ•΅οΈ Autonomous Discovery: Agen terbukti mampu menelusuri dependency graph (grafik ketergantungan layanan) secara mandiri untuk mengecek kesehatan layanan hulu/hilir tanpa perlu disuruh secara eksplisit.

⚑ Accelerated RCA: Mengurangi waktu Root Cause Analysis secara drastis. Engineer tidak perlu lagi memfilter data manual; AI menyajikannya dalam satu konteks terpadu.

πŸ›‘οΈ Fine-Grained Control: Dengan membuat MCP Server sendiri, tim Observability memegang kendali penuh atas data apa yang boleh diakses dan diubah oleh AI, menjaga keamanan dan privasi.

πŸ’‘ Key Takeaways

πŸš€ Bypass, Don't Rewrite: Kamu tidak perlu menulis ulang legacy code untuk menikmati fitur modern. Gunakan AI/MCP sebagai lapisan perekat (glue layer) di atas infrastruktur lama.

🧰 Context Engineering: Kecerdasan AI Agent bergantung pada kualitas "alat" yang kita berikan. MCP adalah standar baru untuk memberikan konteks tersebut secara terstruktur.

πŸ‘‡ Diskusi Yuk!

Kalian yang pegang sistem legacy, lebih pilih mana: "Sakit" sebentar buat migrasi total ke teknologi baru (misal: OTel), atau pakai pendekatan "tambal sulam canggih" pakai AI kayak Pinterest ini?

Share strategi kalian di kolom komentar! πŸ‘‡

Sumber:
https://medium.com/pinterest-engineering/autonomous-observability-at-pinterest-part-1-of-2-eb0adae830ba

#PinterestEngineering #Observability #DevOps #AIOps #ModelContextProtocol #ArtificialIntelligence #SRE #TechCaseStudy #LegacySystems #Monitoring

Leave a Comment