🧠 “From GRPO to GPT‑5: Why Sudoku Variants Remain a Grand Challenge in AI Reasoning” — Sakana AI


🚩 Problem Statement
Meski model fondasi AI makin mahir, masih ada tugas yang sangat sulit — seperti varian 9×9-sudoku dengan aturan kreatif. Benchmark ini menguji apakah model benar-benar “berpikir” — bukan hanya meniru pola. “Sudoku-Bench” yang dirilis Sakana AI dibuat untuk mengeksplorasi gap besar dalam reasoning AI.

🛠️ Methodologi / Solusi
1️⃣Sakana AI merilis Sudoku-Bench, kumpulan 100 puzzle dari ukuran 4×4, 6×6, hingga 9×9, termasuk varian aturan unik (teleporter, jalur warna, dll).
2️⃣Evaluasi dua mode: Single-Shot (model beri jawaban langsung seluruh grid) dan Multi-Step (model pasang langkah demi langkah). Metrics: ASR (Average Solve Rate) dan ACP (Average Correct Placements).
3️⃣Hasil menunjukkan: GPT-5 mencapai solve rate ~33% dan menjadi model pertama yang sukses menyelesaikan 9×9 varian modern.

📊 Findings / Results
1️⃣Solve rate ~33% untuk varian 9×9 — dua kali lipat dari pemimpin sebelumnya.
2️⃣Namun, 67% puzzle masih belum bisa diselesaikan → memperlihatkan bahwa reasoning kreatif & spatial masih menjadi tantangan signifikan.

📌 Key Takeaways
✅ Jika Anda bekerja pada agen AI atau model reasoning — varian seperti Sudoku-Bench sangat cocok untuk mengukur kemampuan “thinking like human”.
⚠️ Fokus hanya pada benchmark matematika atau teks sederhana tidak cukup — kita butuh soal yang menuntut insight kreatif & struktur visual.
🧭 Strategi: gunakan benchmark ini sebagai bagian rutin evaluasi model reasoning dalam pipeline, bukan hanya tugas statis.
🎯 Hasilnya memberi sinyal: meski model semakin besar, kemampuan berpikir secara global masih perlu ditingkatkan sebelum AI benar-benar mendekati kemampuan manusia dalam banyak domain.

Sumber:
https://pub.sakana.ai/sudoku-gpt5/

#SudokuBench #GPT5 #AIDeepReasoning #SakanaAI #LLMBenchmark #CreativeAI

Leave a Comment