📌 Pinterest Engineering: Cara Cerdas Satukan Observability “Jadul” dengan AI & MCP



Pinterest baru saja membagikan rahasia dapur mereka tentang bagaimana menangani infrastruktur observability skala raksasa yang terpecah-pecah tanpa harus merombak ulang semuanya. Kuncinya? AI Agents dan Model Context Protocol (MCP).

🚧 Masalah: Mimpi Buruk Data Silo & Tech Debt

🧱 Infrastruktur Terfragmentasi: Sistem Pinterest dibangun sebelum standar modern seperti OpenTelemetry (OTel) ada. Akibatnya, logs, metrics, dan traces hidup di "pulau" yang berbeda-beda tanpa koneksi yang jelas.

😫 On-Call Fatigue: Saat terjadi insiden, engineer harus melompat-lompat antar dashboard dan tool yang berbeda untuk mencari akar masalah. Ini memakan waktu dan membingungkan, terutama bagi engineer baru.

🛑 Migrasi Mustahil: Merombak total infrastruktur raksasa mereka untuk mengikuti standar baru (seperti OTel) dinilai terlalu berisiko dan mahal.

🛠️ Solusi: "Tricorder Agent" & MCP Server

Daripada memperbaiki infrastruktur dasarnya, Pinterest membangun "jembatan pintar" menggunakan AI:

🤖 Model Context Protocol (MCP): Mereka membangun MCP Server internal. Ini bertindak sebagai "kotak perkakas" standar bagi AI Agent untuk mengakses data dari berbagai sumber (ChangeFeed, Metrics, Logs, Alert) secara bersamaan.

🧠 Tricorder Agent: Sebuah agen AI yang menggunakan toolset MCP tersebut. Cukup beri link alert, dan agen ini akan otomatis mengumpulkan data relevan, mengecek dependency graph, dan memberikan hipotesis penyebab masalah.

📉 Mengatasi Context Limit: Karena data Pinterest terlalu besar (3 miliar data point/menit!), mereka menggunakan strategi cerdas: Agen tidak menarik semua data mentah, tapi menghasilkan deep link ke dashboard yang sudah difilter, atau menggunakan LLM perantara untuk meringkas data sebelum disajikan.

✅ Findings & Dampak

🕵️ Autonomous Discovery: Agen terbukti mampu menelusuri dependency graph (grafik ketergantungan layanan) secara mandiri untuk mengecek kesehatan layanan hulu/hilir tanpa perlu disuruh secara eksplisit.

⚡ Accelerated RCA: Mengurangi waktu Root Cause Analysis secara drastis. Engineer tidak perlu lagi memfilter data manual; AI menyajikannya dalam satu konteks terpadu.

🛡️ Fine-Grained Control: Dengan membuat MCP Server sendiri, tim Observability memegang kendali penuh atas data apa yang boleh diakses dan diubah oleh AI, menjaga keamanan dan privasi.

💡 Key Takeaways

🚀 Bypass, Don't Rewrite: Kamu tidak perlu menulis ulang legacy code untuk menikmati fitur modern. Gunakan AI/MCP sebagai lapisan perekat (glue layer) di atas infrastruktur lama.

🧰 Context Engineering: Kecerdasan AI Agent bergantung pada kualitas "alat" yang kita berikan. MCP adalah standar baru untuk memberikan konteks tersebut secara terstruktur.

👇 Diskusi Yuk!

Kalian yang pegang sistem legacy, lebih pilih mana: "Sakit" sebentar buat migrasi total ke teknologi baru (misal: OTel), atau pakai pendekatan "tambal sulam canggih" pakai AI kayak Pinterest ini?

Share strategi kalian di kolom komentar! 👇

Sumber:
https://medium.com/pinterest-engineering/autonomous-observability-at-pinterest-part-1-of-2-eb0adae830ba

#PinterestEngineering #Observability #DevOps #AIOps #ModelContextProtocol #ArtificialIntelligence #SRE #TechCaseStudy #LegacySystems #Monitoring

Leave a Comment