🚀 The Dawn of a World Simulator

Tanggal artikel: 20 Desember 2025📝 Deskripsi RingkasArtikel ini diterbitkan oleh Odyssey, sebuah lab AI yang berfokus pada pengembangan “General-Purpose World Models”. Mereka memperkenalkan Odyssey-2, sebuah model yang dilatih bukan hanya untuk memprediksi teks, tetapi untuk memprediksi bagaimana dunia fisik berevolusi frame-by-frame menggunakan data video dan interaksi. Ini menandai transisi dari model bahasa ke simulator dunia … Read more🚀 The Dawn of a World Simulator

🚀 SoftBank Races to Fulfill $22.5 Billion Funding Commitment to OpenAI

Tanggal artikel: 20 Desember 2025📝 Deskripsi RingkasSoftBank Group, di bawah kepemimpinan Masayoshi Son, sedang berpacu dengan waktu untuk memenuhi komitmen pendanaan sebesar $22,5 miliar kepada OpenAI sebelum akhir tahun 2025. Langkah “all-in” ini melibatkan skema penggalangan dana besar-besaran, termasuk penjualan aset strategis dan pengetatan pengeluaran internal, demi mengamankan posisi SoftBank dalam perlombaan kecerdasan buatan global.⚠️ … Read more🚀 SoftBank Races to Fulfill $22.5 Billion Funding Commitment to OpenAI

🚀 The Shape of AI: Jaggedness, Bottlenecks and Salients

Tanggal artikel: 20 Desember 2025📝 Deskripsi RingkasEthan Mollick meninjau kembali konsep “Jagged Frontier” (perbatasan bergerigi) dalam konteks model AI terbaru seperti GPT-5.2 dan Gemini 3. Ia menjelaskan mengapa AI bisa sangat hebat dalam tugas intelektual berat (seperti melakukan review medis 12 tahun dalam 2 hari) namun gagal pada hal sepele, serta bagaimana terobosan pada satu … Read more🚀 The Shape of AI: Jaggedness, Bottlenecks and Salients

🚀 2025 LLM Year in Review

Tanggal artikel: 19 Desember 2025📝 Deskripsi RingkasAndrej Karpathy merenungkan tahun 2025 sebagai tahun yang penuh peristiwa dan perubahan paradigma dalam dunia Large Language Models (LLM). Ia menyoroti pergeseran dari pelatihan tradisional ke pembelajaran penguatan yang dapat diverifikasi, sifat kecerdasan LLM yang “bergerigi” (jagged), serta munculnya cara baru berinteraksi dengan AI melalui alat seperti Claude Code, … Read more🚀 2025 LLM Year in Review

🚀 Understanding AI Benchmarks

Tanggal artikel: 21 Desember 2025📝 Deskripsi RingkasArtikel ini berupaya meluruskan kesalahpahaman umum tentang benchmark AI yang sering kali disajikan sebagai kebenaran mutlak dalam rilis pers model baru seperti GPT-5.2 atau Claude Opus 4.5. Shrivu Shankar membongkar bahwa skor benchmark sebenarnya adalah hasil dari fungsi kompleks yang melibatkan model, pengaturan, harness (kode pembungkus), dan metode penilaian, … Read more🚀 Understanding AI Benchmarks

🚀 Evaluating Context Compression for AI Agents

Tanggal artikel: 16 Desember 2025📝 Deskripsi RingkasArtikel dari Factory Research ini mengevaluasi berbagai strategi untuk menjaga ingatan agen AI dalam sesi panjang (seperti debugging atau coding kompleks) saat memori terbatas. Penelitian ini membandingkan metode ringkasan terstruktur milik Factory dengan pendekatan kompresi dari OpenAI dan Anthropic, menggunakan kerangka kerja evaluasi berbasis probe dan juri LLM (GPT-5.2) … Read more🚀 Evaluating Context Compression for AI Agents

🚀 The Changing Drivers of LLM Adoption

Tanggal artikel: 20 Desember 2025📝 Deskripsi RingkasArtikel dari Epoch AI ini menganalisis tren adopsi Large Language Models (LLM) di akhir 2025. Meskipun pertumbuhan pengguna baru ChatGPT di AS melambat karena saturasi pasar, pertumbuhan global (terutama di India) dan intensitas penggunaan per pengguna meningkat pesat. Artikel ini menyoroti pergeseran dari sekadar “mencoba” menjadi integrasi ke dalam … Read more🚀 The Changing Drivers of LLM Adoption

🚀 Introducing Bloom: An Open Source Tool for Automated Behavioral Evaluations

Tanggal artikel: 19 Desember 2025📝 Deskripsi RingkasAnthropic merilis Bloom, sebuah kerangka kerja berbasis agen (agentic framework) sumber terbuka yang dirancang untuk mengotomatisasi pembuatan evaluasi perilaku pada model AI frontier. Bloom memungkinkan peneliti mendefinisikan perilaku tertentu (misalnya, kecenderungan menjilat atau sabotase), lalu secara otomatis menghasilkan ribuan skenario unik untuk mengukur seberapa sering dan parah perilaku tersebut … Read more🚀 Introducing Bloom: An Open Source Tool for Automated Behavioral Evaluations

🚀 Cursor Continues Acquisition Spree with Graphite Deal

Tanggal artikel: 19 Desember 2025📝 Deskripsi RingkasCursor, asisten coding AI yang kini bernilai $29 miliar, telah mengakuisisi Graphite, sebuah startup yang menggunakan AI untuk meninjau dan men-debug kode. Langkah ini menyatukan proses penulisan kode dengan peninjauan kode otomatis, bertujuan untuk mengatasi masalah kualitas kode yang sering dihasilkan oleh AI.1. ⚠️ Problem StatementKode AI yang Buggy: … Read more🚀 Cursor Continues Acquisition Spree with Graphite Deal

🚀 Poetiq Achieves New SOTA on ARC-AGI-2 with GPT-5.2 X-High

Tanggal artikel: 23 Desember 2025 (Thread X)📝 Deskripsi RingkasPoetiq mengumumkan pemecahan rekor baru (State-of-the-Art / SOTA) pada benchmark penalaran AI yang terkenal sulit, ARC-AGI-2. Menggunakan model terbaru OpenAI, GPT-5.2 X-High, sistem Poetiq berhasil mencapai lonjakan akurasi yang signifikan tanpa memerlukan pelatihan khusus pada model tersebut, dengan biaya yang relatif efisien.1. ⚠️ Problem StatementTantangan Penalaran Abstrak: … Read more🚀 Poetiq Achieves New SOTA on ARC-AGI-2 with GPT-5.2 X-High