🧠 ā€œFrom GRPO to GPT‑5: Why Sudoku Variants Remain a Grand Challenge in AI Reasoningā€ — Sakana AI


🚩 Problem Statement
Meski model fondasi AI makin mahir, masih ada tugas yang sangat sulit — seperti varian 9Ɨ9-sudoku dengan aturan kreatif. Benchmark ini menguji apakah model benar-benar ā€œberpikirā€ — bukan hanya meniru pola. ā€œSudoku-Benchā€ yang dirilis Sakana AI dibuat untuk mengeksplorasi gap besar dalam reasoning AI.

šŸ› ļø Methodologi / Solusi
1ļøāƒ£Sakana AI merilis Sudoku-Bench, kumpulan 100 puzzle dari ukuran 4Ɨ4, 6Ɨ6, hingga 9Ɨ9, termasuk varian aturan unik (teleporter, jalur warna, dll).
2ļøāƒ£Evaluasi dua mode: Single-Shot (model beri jawaban langsung seluruh grid) dan Multi-Step (model pasang langkah demi langkah). Metrics: ASR (Average Solve Rate) dan ACP (Average Correct Placements).
3ļøāƒ£Hasil menunjukkan: GPT-5 mencapai solve rate ~33% dan menjadi model pertama yang sukses menyelesaikan 9Ɨ9 varian modern.

šŸ“Š Findings / Results
1ļøāƒ£Solve rate ~33% untuk varian 9Ɨ9 — dua kali lipat dari pemimpin sebelumnya.
2ļøāƒ£Namun, 67% puzzle masih belum bisa diselesaikan → memperlihatkan bahwa reasoning kreatif & spatial masih menjadi tantangan signifikan.

šŸ“Œ Key Takeaways
āœ… Jika Anda bekerja pada agen AI atau model reasoning — varian seperti Sudoku-Bench sangat cocok untuk mengukur kemampuan ā€œthinking like humanā€.
āš ļø Fokus hanya pada benchmark matematika atau teks sederhana tidak cukup — kita butuh soal yang menuntut insight kreatif & struktur visual.
🧭 Strategi: gunakan benchmark ini sebagai bagian rutin evaluasi model reasoning dalam pipeline, bukan hanya tugas statis.
šŸŽÆ Hasilnya memberi sinyal: meski model semakin besar, kemampuan berpikir secara global masih perlu ditingkatkan sebelum AI benar-benar mendekati kemampuan manusia dalam banyak domain.

Sumber:
https://pub.sakana.ai/sudoku-gpt5/

#SudokuBench #GPT5 #AIDeepReasoning #SakanaAI #LLMBenchmark #CreativeAI

Leave a Comment