Google Rilis Gemma 4 12B untuk AI Multimodal Lokal di Laptop

Google memperkenalkan Gemma 4 12B pada Rabu (03/06/2026), model multimodal baru yang dirancang untuk menjalankan pengalaman AI lokal di laptop. Dalam pengumuman resminya, Google menyebut model ini memakai arsitektur unified dan encoder-free, sehingga input visual dan audio dapat masuk langsung ke backbone LLM tanpa encoder multimodal terpisah.

Gemma 4 12B diposisikan sebagai model tengah di keluarga Gemma 4. Google menempatkannya di antara E4B yang lebih ramah perangkat edge dan model 26B Mixture of Experts (MoE) yang lebih besar. Menurut Google, model ini juga menjadi model mid-sized Gemma pertama yang mendukung native audio input.

Poin yang paling menarik untuk pembaca teknis adalah arah local AI yang makin serius. Google menyebut Gemma 4 12B cukup kecil untuk berjalan lokal dengan 16GB VRAM atau unified memory. Namun, klaim ini tetap perlu dibaca sebagai klaim Google, bukan jaminan bahwa model akan berjalan mulus di semua laptop dengan RAM sistem 16GB.

Dari sisi kemampuan, Google mengklaim performa benchmark Gemma 4 12B mendekati model 26B MoE pada pengujian standar, dengan memory footprint yang lebih kecil. Model ini juga membawa Multi-Token Prediction (MTP) drafters, fitur yang disebut Google dapat membantu mengurangi latensi saat model menghasilkan output.

Gemma 4 12B Benchmarks. Sumber: Blog Resmi Google
Gemma 4 12B Benchmarks. Sumber: Blog Resmi Google

Developer guide Google memberi detail teknis tambahan. Untuk input visual, Gemma 4 12B memakai vision embedder 35 juta parameter yang memproyeksikan patch gambar 48×48 piksel ke hidden dimension LLM. Untuk audio, sinyal 16 kHz dipotong ke frame 40ms berisi 640 float, lalu diproyeksikan ke ruang input LLM yang sama.

Baca juga:  Huawei Rilis Atlas 200I DK A2 Ascend AI Developer Kit

Google juga menyiapkan beberapa jalur untuk mencoba model ini. Dalam blog resminya, perusahaan menyebut LM Studio, Ollama, Google AI Edge Gallery App, Google AI Edge Eloquent, dan LiteRT-LM CLI sebagai opsi awal. Checkpoint pre-trained dan instruction-tuned disebut tersedia melalui Hugging Face dan Kaggle, sementara integrasi developer mencakup Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, dan Unsloth.

Untuk teman Gizfin di Indonesia, kabar ini relevan terutama bagi developer, mahasiswa, dan kreator teknis yang ingin bereksperimen dengan AI multimodal tanpa selalu mengandalkan cloud. Meski begitu, sumber Google tidak menyebut ketersediaan khusus Indonesia, harga, dukungan lokal, atau program regional. Sehingga sebaiknya membatasi konteks lokal pada peluang eksperimen dan kebutuhan mengecek kompatibilitas perangkat masing-masing.

Rilis ini juga memperlihatkan bagaimana model kelas menengah dengan checkpoint yang dirilis Google mulai diarahkan ke workflow agentic. Google menyebut Gemma 4 12B dapat dipakai untuk coding, pemrosesan gambar, analisis video, audio, dan local OpenAI-compatible API server melalui LiteRT-LM. Jika perangkat yang Anda dipakai sudah memenuhi kebutuhan memori yang disebut Google, pembaca bisa mulai mencoba Gemma 4 12B lewat jalur resmi seperti Hugging Face, Kaggle, LM Studio, Ollama, atau LiteRT-LM, sambil tetap mengecek kompatibilitas perangkat masing-masing.

Baca juga:  Opera Perkenalkan Aria, Sebuah Browser AI Baru
Aristyantoo Avatar
Ditulis oleh

Aristyanto Heri Trimawan

Tech Writer | Huawei Enthusiast | Exploring AI
Lihat Profil

Penulis teknologi yang fokus pada ekosistem Huawei, aplikasi pencari cuan, dan gaya hidup digital. Pecinta kopi dan pelari yang percaya bahwa teknologi harus bisa dipahami semua orang.

Ingin membaca lebih banyak dari penulis ini? Lihat Semua Artikel

Artikel Terkait

Opera Perkenalkan Aria, Browser AI Baru

Opera Perkenalkan Aria, Sebuah Browser AI Baru

Bahas Pemrograman Ascend C Diluncurkan

Huawei Luncurkan Bahasa Pemrograman Ascend C

Huawei Atlas 200I DK A2 Ascend AI Developer Kit

Huawei Rilis Atlas 200I DK A2 Ascend AI Developer Kit

Tinggalkan komentar