Kita sering skeptis melihat skor AI (seperti GPT-5 atau Claude 4) yang makin tinggi di tes standar (MMLU, HumanEval, dll). Jangan-jangan modelnya cuma “menghapal” jawaban (overfitting) dan nggak beneran pinter? 🤔
Epoch AI baru saja merilis riset statistik yang menjawab keraguan ini.
1. ⚠️ Problem Statement (Masalah)
* Goodhart’s Law: Ada ketakutan bahwa karena semua orang mengejar skor benchmark tinggi, developer AI cuma mengoptimalkan model buat lulus tes doang, bukan buat jadi pintar beneran.
* Narrow Skill: Apakah model yang jago coding pasti jago matematika? Atau itu kemampuan yang terpisah-pisah?
* Trust Issue: Kita bingung apakah kenaikan angka di grafik benchmark mencerminkan kemajuan intelegensi nyata atau cuma trik marketing.
2. 🛠️ Metodologi & Solusi
Epoch AI menggunakan teknik statistik bernama Analisis Faktor (Factor Analysis).
* Mencari “G-Factor”: Mirip dengan tes IQ pada manusia, mereka mencari apakah ada satu variabel tersembunyi (General Capability) yang menjadi penyebab utama kenapa sebuah model bisa sukses di berbagai tes berbeda.
* Cross-Domain: Mereka membandingkan performa berbagai model di banyak bidang sekaligus (Math, Coding, Reasoning, Knowledge).
3. 📈 Findings & Hasil
Hasilnya mematahkan skeptisisme banyak orang:
* One Factor to Rule Them All: Ternyata, satu faktor dominan (General Capability) bisa menjelaskan lebih dari 90% variasi performa antar model.
* Konsistensi: Jika sebuah model jago di satu tes (misal: MMLU), hampir pasti dia juga jago di tes lain (misal: Coding). Sangat jarang ada model yang jago matematika tapi bodoh dalam bahasa.
* Real Progress: Kenaikan skor benchmark sejauh ini mencerminkan peningkatan kemampuan reasoning dasar model, bukan sekadar “hacking” soal ujian.
4. 💡 Key Takeaways
* Benchmark Masih Valid: Meski tidak sempurna, skor benchmark adalah proksi yang sangat akurat untuk mengukur kecerdasan umum AI.
* General Intelligence: Kita sedang bergerak menuju AI yang semakin general. Kemajuan di satu bidang (misal: training model buat coding) ternyata ikut mendongkrak kemampuan logikanya di bidang lain.
* No “Gaming” Yet: Belum ada bukti kuat bahwa model-model top saat ini cuma “pura-pura pintar” dengan menghapal soal. Mereka beneran makin pintar.
🔗 Baca Riset Lengkapnya:
https://epochai.substack.com/p/benchmark-scores-general-capability
#ArtificialIntelligence #EpochAI #LLM #MachineLearning #AIResearch #Benchmark #GeneralIntelligence #DataScience #TechInsights