news_update - .:: Data Sains Lab ::.

🚀 Yelp Memodernisasi Infrastruktur Data Menjadi Streaming Lakehouse di Amazon Web Services

3rd December 20253rd December 2025 by agungw132

📌 Problem Statement1. Pipeline data Yelp sebelumnya membutuhkan waktu hingga 18 jam untuk siap dianalisis.2. Arsitektur lama mengandalkan Kafka sebagai storage permanen dan format CDC khusus yang kompleks, sulit dipelihara, serta mahal.3. Yelp harus memenuhi kebutuhan real-time analytics, efisiensi biaya, dan kepatuhan GDPR di tengah pertumbuhan data masif. 🛠️ Methodology / Solusi / Hypothesis1. Yelp … Read more🚀 Yelp Memodernisasi Infrastruktur Data Menjadi Streaming Lakehouse di Amazon Web Services

🚀 ClickHouse ‘AI-First’ Data Warehouse: Evolusi Internal Skala Petabyte

3rd December 20253rd December 2025 by agungw132

📌 Problem Statement1. ClickHouse mengelola data internal dalam skala ~2,1 PB, tetapi arsitektur lamanya masih berfokus pada BI tradisional (batch besar, latensi tinggi).2. Kebutuhan baru: analytics real-time, feature store untuk AI/ML, dan akses cepat lintas-tim.3. Infrastruktur data harus mampu melayani laporan historis sekaligus query ad-hoc untuk aplikasi AI modern. 🛠️ Methodology / Solusi / Hypothesis1. … Read more🚀 ClickHouse ‘AI-First’ Data Warehouse: Evolusi Internal Skala Petabyte

🚀 650GB Data Delta Lake di S3: Polars vs DuckDB vs Daft vs Spark

3rd December 20253rd December 2025 by agungw132

📌 Problem Statement1. Dataset ~650 GB dalam format Delta Lake di S3 sering dianggap “cukup besar” sehingga harus menggunakan engine cluster seperti Spark — padahal belum tentu.2. Banyak organisasi masih mempercayai infrastruktur besar (cluster terdistribusi) meskipun kebutuhan query mereka sederhana, sehingga biaya dan kompleksitas tetap tinggi.3. Dibutuhkan studi perbandingan kuantitatif antara engine ringan (single-node) dengan … Read more🚀 650GB Data Delta Lake di S3: Polars vs DuckDB vs Daft vs Spark

🚀 Mengorganisir Kode, Eksperimen, & Riset untuk Kompetisi Kaggle

3rd December 20253rd December 2025 by agungw132

📌 Problem Statement1. Banyak peserta Kaggle kesulitan menjaga struktur kode, eksperimen, dan riset tetap rapi sehingga sulit melakukan iterasi cepat.2. Kekacauan file, notebook tanpa versi, dan kurangnya dokumentasi membuat reproducibility rendah.3. Tanpa organisasi yang baik, hasil bagus di leaderboard sulit diulang, sulit dibagikan, dan kurang bernilai untuk portofolio profesional.🛠️ Methodology / Solusi / Hypothesis1. Penulis … Read more🚀 Mengorganisir Kode, Eksperimen, & Riset untuk Kompetisi Kaggle

🚀 Anthropic, Microsoft & Nvidia Menjalin Aliansi AI Senilai Puluhan Miliar

3rd December 20253rd December 2025 by agungw132

📌 Problem Statement1. Anthropic membutuhkan kapasitas komputasi masif untuk melatih dan mengoperasikan model frontier Claude — namun pasokan compute global sangat terbatas.2. Microsoft dan Nvidia ingin mendiversifikasi ekosistem AI agar tidak hanya bergantung pada satu pemain (OpenAI).3. Industri AI menghadapi tekanan untuk mengamankan infrastruktur chip, cloud, dan kapasitas model agar mampu bersaing pada skala global. … Read more🚀 Anthropic, Microsoft & Nvidia Menjalin Aliansi AI Senilai Puluhan Miliar

🚀 Manus Browser Operator — Ekstensi Browser yang Mengubah Browser Anda Menjadi Agen AI Otomatis

3rd December 20253rd December 2025 by agungw132

📌 Problem Statement1. Banyak tugas rutin di browser seperti mengisi formulir, berkali-kali masuk ke CRM, atau menavigasi beberapa halaman secara manual memakan waktu dan rawan kesalahan. 2. Alat otomatisasi sering berjalan di cloud atau sandbox terpisah dan tidak dapat memanfaatkan sesi login atau akses yang sudah aktif di browser pengguna. 3. Pengguna ingin memberi perintah … Read more🚀 Manus Browser Operator — Ekstensi Browser yang Mengubah Browser Anda Menjadi Agen AI Otomatis

🚀 Batch vs Real-Time Data Pipelines — Apakah Kita Masih Harus Memilih?

3rd December 20253rd December 2025 by agungw132

📌 Problem Statement1. Data engineering sering dihadapkan pada pertanyaan: apakah pipeline harus batch atau real-time? — meskipun kenyataannya banyak use-case yang bisa menggunakan salah satu. 2. Real-time terdengar “lebih bagus”, tetapi seringkali biayanya jauh lebih tinggi, kompleksitas operasional naik, dan nilai bisnis yang didapat tidak selalu sebanding. 3. Banyak tim memilih real-time tanpa mempertimbangkan seberapa … Read more🚀 Batch vs Real-Time Data Pipelines — Apakah Kita Masih Harus Memilih?

🚀 Mempercepat Produk Data: Perbaiki Pondasi Terlebih Dahulu

3rd December 20253rd December 2025 by agungw132

📌 Problem Statement1. Banyak tim data gagal dalam menskalakan produk data bukan karena model yang buruk, melainkan karena pondasi data yang lemah. 2. Pipeline sering dianggap sebagai tugas teknis—padahal harus diperlakukan sebagai produk dengan roadmap, pemilik, dan SLA yang jelas. 3. Praktik seperti skrip sekali jadi, schema yang tidak stabil, dan kurangnya observabilitas menyebabkan pipeline … Read more🚀 Mempercepat Produk Data: Perbaiki Pondasi Terlebih Dahulu

🚀 Menanti SQL :202y — “GROUP BY ALL” yang Memudahkan Agregasi

3rd December 20253rd December 2025 by agungw132

📌 Problem Statement1. Dalam SQL tradisional, ketika kita menulis sesuatu seperti:SELECT a, AVG(b) FROM t1 GROUP BY a;sudah jelas bahwa kolom non-agregat (a) harus ada di GROUP BY. Namun jika ada banyak kolom atau ekspresi kompleks, kita harus mengetik ulang semuanya — yang rentan kesalahan dan menyulitkan pemeliharaan. 2. Untuk query lebih panjang dan lebih … Read more🚀 Menanti SQL :202y — “GROUP BY ALL” yang Memudahkan Agregasi

🚀 “SQL Direkayasa Ulang untuk Era AI dengan Fungsi-Fungsi AI di BigQuery”

3rd December 20253rd December 2025 by agungw132

📌 Problem Statement1. Bahasa SQL telah lama menjadi tulang punggung analitik data terstruktur—namun ketika kita masuk ke era data tak terstruktur (teks, gambar, video) dan AI generatif, SQL saja tidak cukup fleksibel. 2. Integrasi model besar (LLM) dengan alur SQL sering dibebani oleh pemindahan data, prompt‐engineering, pemilihan model, dan tuning parameter—yang mahal dan sulit di … Read more🚀 “SQL Direkayasa Ulang untuk Era AI dengan Fungsi-Fungsi AI di BigQuery”

Share this:

Share this:

Share this:

Share this:

Share this:

Share this:

Share this:

Share this:

Share this:

Share this: