๐Ÿš€ Evaluating Context Compression for AI Agents


Tanggal artikel: 16 Desember 2025

๐Ÿ“ Deskripsi Ringkas
Artikel dari Factory Research ini mengevaluasi berbagai strategi untuk menjaga ingatan agen AI dalam sesi panjang (seperti debugging atau coding kompleks) saat memori terbatas. Penelitian ini membandingkan metode ringkasan terstruktur milik Factory dengan pendekatan kompresi dari OpenAI dan Anthropic, menggunakan kerangka kerja evaluasi berbasis probe dan juri LLM (GPT-5.2) untuk mengukur kualitas informasi yang dipertahankan.

1. โš ๏ธ Problem Statement
Keterbatasan Memori Agen: Sesi kerja agen yang panjang menghasilkan jutaan token, jauh melebihi kapasitas memori kerja model.

Risiko Kompresi Naif: Metode kompresi agresif sering kali menghilangkan detail kritis seperti nama file yang dimodifikasi atau langkah yang sudah dicoba, menyebabkan agen lupa konteks, mengulang kesalahan, dan membuang token untuk membaca ulang file.

Metrik Tradisional Tidak Cukup: Metrik seperti ROUGE atau embedding similarity hanya mengukur kemiripan leksikal, bukan fungsionalitas memori untuk menyelesaikan tugas.

2. ๐Ÿ› ๏ธ Solusi / Approach
Tim membandingkan tiga strategi:

Factory (Anchored Iterative Summarization): Menggunakan ringkasan terstruktur dan persisten dengan bagian eksplisit (tujuan, file, keputusan). Saat dikompresi, informasi baru digabungkan secara bertahap ke dalam ringkasan induk yang tidak diciptakan ulang dari nol.

OpenAI (/responses/compact): Kompresi opaque yang dioptimalkan untuk rasio tinggi (99.3%) namun mengorbankan interpretabilitas.

Anthropic: Kompresi berbasis ringkasan terstruktur yang diciptakan ulang sepenuhnya (regenerated) setiap kali kompresi terjadi.

Evaluasi dilakukan dengan mengajukan pertanyaan probe (recall, artifact, continuation, decision) kepada agen setelah kompresi untuk melihat apakah ia masih "ingat".

3. ๐Ÿ“Š Findings / Results / Impact
Struktur Menang: Metode Factory (skor 3.70) mengungguli Anthropic (3.44) dan OpenAI (3.35) secara keseluruhan.

Akurasi Detail: Dalam hal akurasi fakta teknis (seperti path file dan kode error), Factory unggul signifikan (+0.61 poin vs OpenAI). OpenAI cenderung membuang detail teknis "rendah entropi" yang justru vital bagi agen coding.

Konteks Persisten: Pendekatan anchored Factory lebih baik dalam mempertahankan kesadaran konteks jangka panjang dibandingkan metode regeneration Anthropic yang rentan terhadap "hanyut" informasi (drift) seiring waktu.

Kelemahan Umum: Semua metode masih lemah dalam pelacakan artefak (artifact tracking)โ€”mengetahui file mana yang telah disentuhโ€”menunjukkan perlunya indeks artefak khusus di luar ringkasan teks.

4. โš™๏ธ How to Implement (General Pattern)
Untuk membangun memori agen yang lebih baik:

Gunakan Struktur Eksplisit: Jangan biarkan LLM meringkas bebas. Paksa format terstruktur dengan bagian khusus untuk "File yang Dimodifikasi", "Keputusan Kunci", dan "Langkah Selanjutnya".

Anchored Summarization: Jangan membuat ringkasan baru dari nol setiap kali batas konteks tercapai. Gabungkan (merge) ringkasan baru ke dalam state persisten untuk mencegah degradasi informasi berulang.

Optimalkan untuk Tugas, Bukan Rasio: Jangan tergiur rasio kompresi tertinggi. Mempertahankan 1% token lebih banyak (seperti Factory vs OpenAI) bisa menghemat ribuan token re-fetching di masa depan.

5. ๐Ÿ’ก Key Takeaways
Kompresi Bukan Sekadar Mengecilkan: Tujuan kompresi konteks adalah retensi fungsionalitas, bukan sekadar pengurangan token.

Detail Teknis itu Vital: Bagi agen coding, nama file dan variabel bukan "noise" yang bisa dibuang, melainkan jangkar realitas kerja mereka.

Evaluasi Fungsional: Cara terbaik mengukur kualitas kompresi adalah dengan bertanya pada agen, "Apa yang baru saja kita lakukan dan apa file yang kita ubah?", bukan dengan membandingkan teks ringkasan.

๐Ÿ—ฃ๏ธ Apakah Anda pernah mengalami frustrasi saat asisten AI Anda lupa konteks di tengah sesi coding panjang? Strategi apa yang Anda gunakan saat ini: restart sesi atau re-prompting manual?

Sumber:
https://factory.ai/news/evaluating-compression

๐Ÿท๏ธ #AIAgents #ContextCompression #LLMMemory #SoftwareEngineering #AIResearch #PromptEngineering #CodingAgents #OpenAI #Anthropic #FactoryAI

Leave a Comment