🚀 Poetiq Achieves New SOTA on ARC-AGI-2 with GPT-5.2 X-High


Tanggal artikel: 23 Desember 2025 (Thread X)

📝 Deskripsi Ringkas
Poetiq mengumumkan pemecahan rekor baru (State-of-the-Art / SOTA) pada benchmark penalaran AI yang terkenal sulit, ARC-AGI-2. Menggunakan model terbaru OpenAI, GPT-5.2 X-High, sistem Poetiq berhasil mencapai lonjakan akurasi yang signifikan tanpa memerlukan pelatihan khusus pada model tersebut, dengan biaya yang relatif efisien.

1. ⚠️ Problem Statement
Tantangan Penalaran Abstrak: ARC-AGI adalah tolok ukur standar emas untuk penalaran umum dan abstraksi visual, yang selama ini sangat sulit dipecahkan oleh LLM standar.

Stagnasi SOTA: Meningkatkan skor pada benchmark ini biasanya membutuhkan upaya rekayasa yang sangat berat atau biaya komputasi yang mahal, dengan kenaikan skor yang biasanya inkremental (sedikit demi sedikit).

Keseimbangan Biaya: Mencapai penalaran tingkat tinggi sering kali disertai dengan biaya per masalah yang tidak ekonomis.

2. 🛠️ Solusi / Approach
Pendekatan yang digunakan Poetiq untuk mencapai hasil ini:

Model Generasi Baru: Memanfaatkan akses awal ke model GPT-5.2 X-High dari OpenAI.

Poetiq Harness: Menggunakan kerangka kerja sistem meta (meta-system) Poetiq yang bekerja dengan cara pemecahan masalah iteratif dan audit mandiri (self-auditing). Sistem secara otonom menentukan strategi, menyempurnakan solusi, dan memverifikasi jawaban.

Tanpa Optimasi Model: Sistem dijalankan "mentah" tanpa fine-tuning atau optimasi spesifik model untuk GPT-5.2, mengandalkan kecerdasan bawaan model dan arsitektur agen Poetiq.

3. 📊 Findings / Results / Impact
Akurasi Rekor: Mencapai akurasi setinggi 75% pada dataset lengkap PUBLIC-EVAL ARC-AGI-2.

Margin Keunggulan: Mengalahkan pemegang rekor SOTA sebelumnya dengan selisih ~15 poin persentase, sebuah lompatan kinerja yang sangat besar.

Efisiensi Biaya: Biaya pemecahan masalah berada di bawah $8 per masalah, yang dinilai sangat efisien mengingat tingkat kesulitan dan akurasi yang dicapai.

Validasi GPT-5.2: Menunjukkan bahwa model GPT-5.2 memiliki kemampuan generalisasi zero-shot yang jauh lebih unggul dibandingkan pendahulunya.

4. ⚙️ How to Implement (General Pattern)
(Berdasarkan rencana rilis Poetiq):

Pembaruan Kode: Poetiq berencana merilis kode sistem mereka yang telah diperbarui untuk mendukung GPT-5.2 setelah musim liburan.

Pola Agen: Implementasi kemungkinan besar melibatkan pola agen yang melakukan: Strategy Formulation -> Iterative Solving -> Self-Correction -> Final Submission.

5. 💡 Key Takeaways
Kecerdasan Umum Meningkat: Lonjakan 15% tanpa fine-tuning membuktikan bahwa kemampuan penalaran dasar (reasoning capabilities) pada model frontier (GPT-5.2) telah meningkat drastis.

Software > Hardware: Peningkatan ini dicapai melalui kombinasi model yang lebih baik dan arsitektur software (Poetiq harness), bukan sekadar menambah compute secara membabi buta.

Optimisme AGI: Hasil ini memberikan harapan kuat bahwa skor pada pengujian SEMI-PRIVATE (ujian resmi ARC Prize) juga akan mengalami peningkatan serupa.

🗣️ Apakah menurut Anda pencapaian 75% di ARC-AGI ini menandakan bahwa kita sudah sangat dekat memecahkan masalah penalaran abstrak AI, ataukah ini hanya bukti bahwa model bahasa semakin jago "menebak" pola visual?

Sumber:
https://threadreaderapp.com/thread/2003546910427361402.html

🏷️ #ARCAGI #ArtificialGeneralIntelligence #GPT5 #Poetiq #ReasoningBenchmarks #AIResearch #SOTA #OpenAI #PromptEngineering #FutureTech

Leave a Comment