Pernah bingung baca ribuan review produk di e-commerce? Kadang satu bilang "Baterai awet", yang lain bilang "Boros banget". Siapa yang benar? LLM biasa pun sering "tersedak" kalau disuruh baca ribuan opini sekaligus.
Flipkart Tech baru saja memperkenalkan framework baru bernama XL-OPSUMM untuk mengatasi masalah ini.
🚧 Masalah: Context Window & Opini yang Bertabrakan
🤯 Volume Data: Produk populer bisa punya ribuan review. Memasukkan semuanya ke dalam prompt LLM seringkali melebihi batas context window.
⚔️ Konflik Opini: Ketika ada 50 review positif dan 5 review negatif tentang baterai, LLM seringkali bias ke data terakhir yang dibaca (recency bias) atau malah halusinasi karena bingung menyimpulkan konsensus.
🛠️ Solusi: Aspect Dictionary sebagai "Source of Truth"
XL-OPSUMM tidak sekadar meringkas teks, tapi menggunakan pendekatan terstruktur yang cerdas:
📊 Aspect Dictionary: Ini adalah inovasi kuncinya. Sistem membuat "papan skor" numerik yang melacak sentimen untuk setiap fitur (misal: Kamera, Baterai). Contoh: {"Battery": {Pos: 58, Neg: 5, Neu: 12}}. Ini menjadi data objektif untuk menyelesaikan konflik opini.
🔄 Incremental Update: Review tidak diproses sekaligus, tapi dicicil per chunk.
Buat ringkasan awal.
Baca chunk berikutnya -> Update skor di Dictionary.
Rekonsiliasi ringkasan lama dengan data baru menggunakan skor Dictionary sebagai wasit.
✅ Findings & Dampak
🏆 SOTA Performance: Diuji pada dataset XL-FLIPKART (rata-rata 3.680 review/produk), XL-OPSUMM mengalahkan semua metode lain dengan skor BooookScore 85.60.
📉 Hemat Biaya: Framework ini memungkinkan penggunaan model open-source yang lebih kecil (seperti Llama-3-8B) untuk menghasilkan ringkasan berkualitas tinggi, tanpa perlu model tertutup mahal dengan context window raksasa.
💡 Key Takeaways
🧠 Hybrid Approach: Menggabungkan kemampuan bahasa LLM dengan data statistik terstruktur (dictionary) adalah kunci untuk menjaga akurasi fakta dalam ringkasan skala besar.
📈 Scalable: Pendekatan inkremental memungkinkan sistem ini memproses jumlah review yang tak terbatas tanpa kehilangan konteks atau koherensi.
👇 Diskusi Yuk!
Kalian lebih percaya ringkasan teks buatan AI atau mending liat skor bintang rata-rata aja kalau mau beli barang?
Share preferensi belanja kalian di bawah! 👇
Sumber:
https://blog.flipkart.tech/beyond-the-context-window-a-new-approach-to-summarizing-big-data-44b306a9608a
#DataScience #NLP #LLM #FlipkartTech #AIResearch #MachineLearning #BigData #Ecommerce #Summarization #Llama3