🚀 From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models

Tanggal Artikel: 23 Agustus 2025 (arXiv)

📝 Deskripsi Ringkas
Makalah ini memperkenalkan FinCDM, sebuah kerangka kerja evaluasi baru yang dirancang khusus untuk Model Bahasa Besar (LLM) di domain keuangan. Alih-alih hanya memberikan skor tunggal (misal: akurasi 80%), FinCDM menggunakan metode Cognitive Diagnosis Modeling (CDM) untuk memetakan kekuatan dan kelemahan model secara rinci pada tingkat keterampilan kognitif (skill-level evaluation). Kerangka kerja ini diuji pada dataset baru bernama FinSkills, yang mencakup konsep keuangan yang komprehensif.

1. ⚠️ Problem Statement
Keterbatasan Benchmark Skor Tunggal: Benchmark keuangan yang ada (seperti FinEval atau FinBench) hanya memberikan skor kinerja agregat, yang gagal menjelaskan mengapa model gagal atau berhasil pada tugas tertentu.

Cakupan Dataset Sempit: Dataset yang ada sering kali terbatas pada subset konsep keuangan tertentu (misal: hanya akuntansi atau saham), mengabaikan keterampilan penting lain untuk aplikasi dunia nyata.

Kurangnya Diagnostik Keterampilan: Tidak ada cara sistematis untuk mengetahui apakah model "memahami" konsep Arbitrage tetapi gagal dalam Risk Management, atau sebaliknya.

2. 🛠️ Solusi / Approach
Penulis mengusulkan kerangka kerja dua bagian:

FinSkills (Dataset): Dataset komprehensif yang disusun menggunakan silabus CFA (Chartered Financial Analyst) dan CPA (Certified Public Accountant). Dataset ini dianotasi dengan label "konsep pengetahuan" (knowledge concepts) secara manual oleh ahli keuangan.

FinCDM (Framework Diagnostik): Mengadaptasi model psikometrik Cognitive Diagnosis (seperti DINA/NCDM) untuk mengevaluasi LLM.

Q-matrix Construction: Memetakan setiap pertanyaan ke konsep keuangan yang diuji.

Model Training: Melatih model CDM untuk memperkirakan probabilitas penguasaan (mastery probability) LLM terhadap setiap konsep berdasarkan pola jawaban benar/salah mereka.

3. 📊 Findings / Results / Impact
Pola Penguasaan Beragam: LLM yang memiliki skor akurasi keseluruhan yang mirip ternyata memiliki profil keterampilan yang sangat berbeda. Misalnya, satu model mungkin unggul dalam Quantitative Methods tapi lemah dalam Ethics.

Kelemahan Umum: Sebagian besar LLM (bahkan GPT-4) menunjukkan kelemahan signifikan dalam konsep yang membutuhkan penalaran numerik kompleks atau pemahaman regulasi spesifik yang jarang muncul di data pelatihan umum.

Korelasi Skor vs Skill: Skor tinggi tidak selalu berarti penguasaan konsep yang merata. FinCDM mampu mengungkap "ilusi kompetensi" di mana model menebak benar tanpa penguasaan konsep yang kuat.

4. ⚙️ How to Implement (General Pattern)
Jika Anda ingin mengevaluasi model keuangan Anda menggunakan pendekatan ini:

Susun Q-Matrix: Definisikan daftar keterampilan/konsep (misal: Audit, Derivatives, Taxation) dan tandai pertanyaan mana yang menguji konsep apa.

Kumpulkan Respons Model: Jalankan model pada dataset ujian (seperti FinSkills) dan catat jawaban benar/salah (0/1).

Terapkan Model CDM: Gunakan pustaka CDM (seperti EduCDM di Python) untuk memproses matriks respons dan Q-matrix guna menghasilkan profil keterampilan (cognitive radar charts).

5. 💡 Key Takeaways
Beyond Accuracy: Evaluasi AI di domain berisiko tinggi (keuangan/medis) harus bergerak dari sekadar "skor ujian" ke "profil kompetensi".

Diagnostik Granular: Mengetahui bahwa model gagal itu baik, tapi mengetahui di mana model gagal (misal: di Financial Reporting) jauh lebih berharga untuk perbaikan (fine-tuning).

Standar Baru: FinCDM dan FinSkills menetapkan standar baru untuk transparansi kapabilitas model bahasa di industri keuangan.

🗣️ Apakah Anda lebih percaya pada model AI yang memiliki skor rata-rata tinggi, atau model yang memiliki profil keterampilan transparan (misal: "Sangat ahli di Pajak, tapi jangan tanya soal Derivatif")?

Sumber:
https://arxiv.org/pdf/2508.13491

🏷️ #FinancialLLM #AIEvaluation #CognitiveDiagnosis #FinTech #MachineLearning #LargeLanguageModels #FinCDM #Benchmark #ArtificialIntelligence

Leave a Comment