Google Rilis Gemma 4 12B untuk AI Multimodal Lokal di Laptop

Google memperkenalkan Gemma 4 12B pada Rabu (03/06/2026), model multimodal baru yang dirancang untuk menjalankan pengalaman AI lokal di laptop. Dalam pengumuman resminya, Google menyebut model ini memakai arsitektur unified dan encoder-free, sehingga input visual dan audio dapat masuk langsung ke backbone LLM tanpa encoder multimodal terpisah.

Gemma 4 12B diposisikan sebagai model tengah di keluarga Gemma 4. Google menempatkannya di antara E4B yang lebih ramah perangkat edge dan model 26B Mixture of Experts (MoE) yang lebih besar. Menurut Google, model ini juga menjadi model mid-sized Gemma pertama yang mendukung native audio input.

Poin yang paling menarik untuk pembaca teknis adalah arah local AI yang makin serius. Google menyebut Gemma 4 12B cukup kecil untuk berjalan lokal dengan 16GB VRAM atau unified memory. Namun, klaim ini tetap perlu dibaca sebagai klaim Google, bukan jaminan bahwa model akan berjalan mulus di semua laptop dengan RAM sistem 16GB.

Dari sisi kemampuan, Google mengklaim performa benchmark Gemma 4 12B mendekati model 26B MoE pada pengujian standar, dengan memory footprint yang lebih kecil. Model ini juga membawa Multi-Token Prediction (MTP) drafters, fitur yang disebut Google dapat membantu mengurangi latensi saat model menghasilkan output.

Gemma 4 12B Benchmarks. Sumber: Blog Resmi Google

Developer guide Google memberi detail teknis tambahan. Untuk input visual, Gemma 4 12B memakai vision embedder 35 juta parameter yang memproyeksikan patch gambar 48×48 piksel ke hidden dimension LLM. Untuk audio, sinyal 16 kHz dipotong ke frame 40ms berisi 640 float, lalu diproyeksikan ke ruang input LLM yang sama.

Google juga menyiapkan beberapa jalur untuk mencoba model ini. Dalam blog resminya, perusahaan menyebut LM Studio, Ollama, Google AI Edge Gallery App, Google AI Edge Eloquent, dan LiteRT-LM CLI sebagai opsi awal. Checkpoint pre-trained dan instruction-tuned disebut tersedia melalui Hugging Face dan Kaggle, sementara integrasi developer mencakup Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, dan Unsloth.

Untuk teman Gizfin di Indonesia, kabar ini relevan terutama bagi developer, mahasiswa, dan kreator teknis yang ingin bereksperimen dengan AI multimodal tanpa selalu mengandalkan cloud. Meski begitu, sumber Google tidak menyebut ketersediaan khusus Indonesia, harga, dukungan lokal, atau program regional. Sehingga sebaiknya membatasi konteks lokal pada peluang eksperimen dan kebutuhan mengecek kompatibilitas perangkat masing-masing.

Rilis ini juga memperlihatkan bagaimana model kelas menengah dengan checkpoint yang dirilis Google mulai diarahkan ke workflow agentic. Google menyebut Gemma 4 12B dapat dipakai untuk coding, pemrosesan gambar, analisis video, audio, dan local OpenAI-compatible API server melalui LiteRT-LM. Jika perangkat yang Anda dipakai sudah memenuhi kebutuhan memori yang disebut Google, pembaca bisa mulai mencoba Gemma 4 12B lewat jalur resmi seperti Hugging Face, Kaggle, LM Studio, Ollama, atau LiteRT-LM, sambil tetap mengecek kompatibilitas perangkat masing-masing.

Google Rilis Gemma 4 12B untuk AI Multimodal Lokal di Laptop

Aristyanto Heri Trimawan

Tinggalkan komentar Batalkan balasan

Aristyanto Heri Trimawan

Artikel Terkait

Tinggalkan komentar Batalkan balasan