Gemini 3: Ambisi Baru Google Dalam Membangun Model AI Serbaguna dan Berdaya Tinggi

Google kembali memperkuat posisinya dalam persaingan model kecerdasan buatan dengan merilis Gemini 3, generasi teranyar yang dirancang untuk menghadirkan penalaran lebih dalam, pemahaman multimodal yang lebih solid, serta kemampuan agen yang lebih otonom. Peluncuran ini menandai fase baru ekosistem Gemini, yang kini langsung terintegrasi ke dalam Search, aplikasi Gemini, serta berbagai platform pengembangan yang digunakan jutaan developer di seluruh dunia.

Gemini 3 berdiri sebagai evolusi dari lintasan dua tahun terakhir, ketika Gemini 1 memperkenalkan multimodal bawaan dan konteks panjang, lalu Gemini 2 mendorong lahirnya kemampuan agen. Melalui Gemini 3, Google ingin menghadirkan model yang mampu memahami konteks lebih luas dan mengeksekusi perintah pengguna dengan presisi yang lebih tinggi.

Loncatan di Bidang Penalaran dan Kemampuan Multimodal

Menurut pengujian internal Google, Gemini 3 Pro menunjukkan peningkatan signifikan di berbagai tolok ukur. Dalam uji penalaran tingkat lanjut seperti Humanity’s Last Exam dan GPQA Diamond, model ini mencatat hasil setara penelitian tingkat doktoral. Pada matematika, model ini mencapai skor baru 23,4 persen di MathArena Apex, yang menempatkannya sebagai salah satu model terbaik dalam tugas numerik dan logika.

Pemahaman multimodal juga menjadi fokus utama. Gemini 3 dapat menganalisis teks, gambar, video, dan audio secara bersamaan tanpa memisahkan jenis konten. Hasilnya tercermin dari skor 81 persen di MMMU-Pro untuk penalaran gambar tingkat lanjut dan 87,6 persen dalam Video-MMMU untuk pemahaman video.

Google menambahkan jendela konteks hingga satu juta token, memungkinkan pengguna memproses dokumen panjang, transkrip kuliah, hingga materi kode yang kompleks tanpa kehilangan konsistensi.

Mode Deep Think: Dorongan Ke Arah Penalaran AGI

Selain versi standar, Google memperkenalkan Gemini 3 Deep Think. Varian ini dirancang khusus untuk tugas yang membutuhkan penalaran lebih mendalam, termasuk analisis masalah yang tidak memiliki pola jelas.

Dalam pengujian, Deep Think mencatat skor 41 persen pada Humanity’s Last Exam tanpa menggunakan alat bantu. Pada benchmark ARC-AGI-2 yang berkaitan dengan penalaran mirip AGI, model ini mencapai 45,1 persen. Karena kapabilitasnya yang sangat tinggi, Google menyatakan masih menunggu evaluasi keselamatan lanjutan sebelum merilisnya untuk umum.

Pengembangan Kode dan Kemampuan Agen yang Lebih Otonom

Gemini 3 memperkuat perannya sebagai asisten pengembangan. Melalui konsep vibe coding, model ini dapat menghasilkan kode dari instruksi bahasa alami dengan tingkat kesesuaian lebih tinggi. Pada benchmark Terminal-Bench 2.0, model ini mencetak skor 54,2 persen, menunjukkan peningkatan dalam penggunaan alat berbasis terminal. Pada SWE-bench Verified, Gemini 3 mencatat skor 76,2 persen.

Di saat yang sama, Google meluncurkan Antigravity, platform pengembangan agent-first yang memposisikan agen sebagai mitra kerja aktif. Agen dapat membuka browser, menjalankan terminal, mengedit kode, hingga menguji hasilnya secara mandiri. Platform ini menggabungkan Gemini 3 Pro dengan model penggunaan komputer dari Gemini 2.5 serta model pengeditan gambar Nano Banana.

Kemampuan agen juga tampak dalam perencanaan jangka panjang. Di Vending-Bench 2, simulasi yang menguji pengelolaan bisnis otomatis setahun penuh, Gemini 3 Pro mencatat hasil tertinggi berkat pengambilan keputusan yang konsisten dan tidak menyimpang dari tujuan.

Penggunaan untuk Belajar, Riset, dan Produktivitas

Dalam bidang pendidikan, Gemini 3 dapat menggabungkan kuliah video, catatan tulisan tangan, hingga makalah akademis menjadi bahan belajar yang lebih mudah dipahami. Pengguna dapat meminta model untuk menghasilkan flashcard, ringkasan, diagram, hingga visualisasi berbasis kode.

Untuk produktivitas, Gemini 3 mampu menjalankan alur kerja bertahap seperti memesan layanan, menata email, hingga mengelola proyek pribadi. Antarmuka generatif baru memungkinkan penyajian informasi melalui tabel, diagram, atau visual interaktif yang menyesuaikan konteks permintaan.

Gemini 3 juga dapat digunakan untuk aplikasi yang membutuhkan penalaran spasial, termasuk membaca diagram, memahami struktur dokumen, hingga menganalisis rekaman aktivitas olahraga.

Sorotan dari Riset Eksternal: Akurasi Tinggi, Halusinasi Masih Menjadi Tantangan

Meski menunjukkan peningkatan pada sejumlah tolok ukur internal, penelitian dari Artificial Analysis menemukan bahwa model ini tetap menghadapi tantangan terkait reliabilitas fakta. Dalam Omniscience Index yang menilai 40 model besar, Gemini 3 Pro berada di posisi teratas dengan skor 13. Angka ini jauh di atas Claude 4.1 Opus dan GPT-5.1.

Namun tingkat halusinasinya mencapai 88 persen, setara dengan pendahulunya. Temuan ini menunjukkan bahwa meski cakupan pengetahuannya luas, kecenderungan untuk menjawab secara percaya diri meskipun salah masih belum terselesaikan.

Riset tersebut juga menemukan bahwa model besar cenderung memiliki akurasi tinggi, tetapi ukuran tidak berkorelasi dengan rendahnya halusinasi. Sejumlah model berukuran lebih kecil justru menawarkan reliabilitas lebih baik pada beberapa kategori.

Ketersediaan dan Ekspansi Ekosistem

Gemini 3 Pro kini tersedia di aplikasi Gemini untuk pengguna umum. Dalam Search, model ini hadir melalui AI Mode bagi pelanggan Google AI Pro dan Ultra. Bagi pengembang, akses tersedia melalui Google AI Studio, Vertex AI, Gemini API, serta Gemini CLI. Platform Antigravity juga mulai diperkenalkan sebagai ruang pengembangan terpadu untuk agen.

Mode Deep Think masih menjalani evaluasi keselamatan sebelum dirilis untuk pelanggan Ultra.

Babak Baru Persaingan Model Frontier

Gemini 3 menetapkan standar baru di bidang penalaran, konteks panjang, dan kemampuan agen. Peluncuran ini tidak hanya memperkuat portofolio Google, tetapi juga mendorong persaingan lebih agresif di industri model frontier yang kini menekankan kualitas penalaran serta kemampuan multimodal yang semakin kompleks.

Dengan integrasi langsung ke produk Google dan dukungan luas untuk developer, Gemini 3 menjadi pondasi baru bagi ekosistem AI perusahaan. Model ini menunjukkan arah pengembangan ke depan, di mana penalaran mendalam, otonomi agen, dan multimodal menjadi elemen utama dalam menghadirkan pengalaman AI yang lebih berguna dan dapat diandalka