š© Problem Statement
Meski model fondasi AI makin mahir, masih ada tugas yang sangat sulit ā seperti varian 9Ć9-sudoku dengan aturan kreatif. Benchmark ini menguji apakah model benar-benar āberpikirā ā bukan hanya meniru pola. āSudoku-Benchā yang dirilis Sakana AI dibuat untuk mengeksplorasi gap besar dalam reasoning AI.
š ļø Methodologi / Solusi
1ļøā£Sakana AI merilis Sudoku-Bench, kumpulan 100 puzzle dari ukuran 4Ć4, 6Ć6, hingga 9Ć9, termasuk varian aturan unik (teleporter, jalur warna, dll).
2ļøā£Evaluasi dua mode: Single-Shot (model beri jawaban langsung seluruh grid) dan Multi-Step (model pasang langkah demi langkah). Metrics: ASR (Average Solve Rate) dan ACP (Average Correct Placements).
3ļøā£Hasil menunjukkan: GPT-5 mencapai solve rate ~33% dan menjadi model pertama yang sukses menyelesaikan 9Ć9 varian modern.
š Findings / Results
1ļøā£Solve rate ~33% untuk varian 9Ć9 ā dua kali lipat dari pemimpin sebelumnya.
2ļøā£Namun, 67% puzzle masih belum bisa diselesaikan ā memperlihatkan bahwa reasoning kreatif & spatial masih menjadi tantangan signifikan.
š Key Takeaways
ā
Jika Anda bekerja pada agen AI atau model reasoning ā varian seperti Sudoku-Bench sangat cocok untuk mengukur kemampuan āthinking like humanā.
ā ļø Fokus hanya pada benchmark matematika atau teks sederhana tidak cukup ā kita butuh soal yang menuntut insight kreatif & struktur visual.
š§ Strategi: gunakan benchmark ini sebagai bagian rutin evaluasi model reasoning dalam pipeline, bukan hanya tugas statis.
šÆ Hasilnya memberi sinyal: meski model semakin besar, kemampuan berpikir secara global masih perlu ditingkatkan sebelum AI benar-benar mendekati kemampuan manusia dalam banyak domain.
Sumber:
https://pub.sakana.ai/sudoku-gpt5/
#SudokuBench #GPT5 #AIDeepReasoning #SakanaAI #LLMBenchmark #CreativeAI