
Sebuah studi Oumi baru yang dilaporkan oleh The New York Times menemukan bahwa Google AI Overviews tidak akurat 9% dari waktu — yang berarti puluhan juta jawaban yang salah per jam pada skala Google. Lebih dari setengah respons yang akurat juga mencantumkan sumber yang tidak sepenuhnya mendukung klaim mereka, sementara Google menyebut studi tersebut “secara serius cacat.”
Oumi menganalisis 4.326 pencarian yang dijawab oleh Gemini 2 pada bulan Oktober dan Gemini 3 pada bulan Februari, menemukan bahwa Gemini 2 mencapai akurasi 85% sementara Gemini 3 meningkat menjadi 91%. Secara individual, ini adalah angka yang dapat dipertanggungjawabkan untuk sistem AI generatif.
Tantangannya adalah volume. Dengan laju pencarian 5 triliun+ per tahun yang dilaporkan Google, perhitungannya menghasilkan gambaran yang mengkhawatirkan:
· ~14 juta respons AI yang tidak akurat dihasilkan setiap jam
· ~230.000 jawaban yang salah dikirim setiap menit
· ~4.000 kesalahan dihasilkan setiap detik pada penggunaan puncak
Argumen skala mengubah keseluruhan perdebatan akurasi: bahkan tingkat kesalahan yang kecil, ketika diterapkan pada sistem yang digunakan oleh miliaran orang, menjadi masalah misinformasi skala besar dalam istilah absolut.
Di luar angka akurasi mentah, Oumi mengidentifikasi isu terpisah yang—dan bisa dibilang—lebih mengkhawatirkan: “grounding” — apakah sumber yang dicantumkan dalam AI Overviews benar-benar mendukung klaim yang dibuat. Temuan menunjukkan bahwa Gemini 3, meskipun lebih akurat daripada pendahulunya, secara signifikan lebih buruk dalam memberikan sitasi yang benar-benar mendukung.
Di bawah Gemini 2, 37% dari jawaban yang benar tidak ter-grounding. Angka itu naik menjadi 56% di bawah Gemini 3 — artinya mayoritas respons yang akurat tetap menautkan ke sumber yang tidak sepenuhnya mendukung informasi yang diberikan. Ini menciptakan masalah verifikasi: pengguna yang mengeklik untuk “memastikan” jawaban mungkin menemukan bahwa sumber tersebut mengatakan sesuatu yang berbeda atau tidak lengkap.
Analisis sumber di 5.380 referensi yang disitasi juga memunculkan kekhawatiran platform. Facebook menempati peringkat sebagai sumber paling banyak disitasi kedua secara keseluruhan, sementara Reddit berada di peringkat keempat. Keduanya adalah platform media sosial di mana konten yang dibuat pengguna dan belum diverifikasi sangat lazim — menempatkannya di bagian teratas dari hasil pencarian yang disintesis AI memberi mereka otoritas yang tidak semestinya. Facebook disitasi pada 5% dari respons yang akurat dan 7% dari respons yang tidak akurat, yang menunjukkan pola yang layak dipantau.
Google tidak menerima kesimpulan studi tersebut tanpa bantahan. Juru bicara Ned Adriance mempertanyakan desain fundamental dari analisis tersebut: Oumi mengevaluasi akurasi AI Google menggunakan model AI miliknya sendiri, yang menghadirkan kekeliruan metodologis yang melingkar — jika model Oumi juga bisa membuat kesalahan, penilaiannya tentang kesalahan Google mungkin juga tidak dapat diandalkan.
“Studi ini memiliki lubang yang serius,” kata Adriance. “Studi ini tidak mencerminkan apa yang sebenarnya dicari orang di Google.”
Google juga merilis data perbandingan miliknya sendiri. Perusahaan tersebut menyatakan bahwa Gemini 3 yang berdiri sendiri — beroperasi tanpa konteks tambahan yang disediakan oleh AI Overviews — tidak akurat 28% dari waktu, yang mengisyaratkan bahwa sistem AI Overviews menyediakan peningkatan akurasi yang berarti dibanding output model mentah. Perusahaan mempertahankan penafian standar mereka di bagian bawah semua AI Overviews: “AI dapat membuat kesalahan, jadi periksa kembali respons.”
Google AI Overviews adalah ringkasan yang dihasilkan AI yang muncul di bagian atas hasil Google Search, yang menyintesis jawaban atas pertanyaan pengguna dan mencantumkan sumber web pendukung. Ditenagai oleh model Gemini milik Google, fitur ini diperkenalkan secara luas pada 2024 dan kini muncul di miliaran pencarian secara global. AI Overviews berbeda dari hasil pencarian standar, karena mereka menghasilkan teks alih-alih sekadar mencantumkan tautan.
AI Overview dianggap “ungrounded” ketika situs web yang dikutipnya tidak benar-benar memverifikasi atau sepenuhnya mendukung informasi yang disajikan dalam ringkasan. Ini bermasalah karena pengguna yang mencoba memeriksa sebuah klaim dengan mengeklik sumber yang dicantumkan mungkin menemukan bahwa sumber tersebut menyangkal, mendukung sebagian, atau sama sekali tidak berhubungan dengan pernyataan AI — sehingga melemahkan peran sistem sebagai alat informasi yang dapat diandalkan dan membuat verifikasi independen menjadi lebih sulit.
Google sendiri mengakui keterbatasannya melalui penafian bawaan bahwa AI bisa membuat kesalahan. Untuk pertanyaan berisiko rendah, AI Overviews mungkin memberikan titik awal yang berguna. Untuk keputusan terkait kesehatan, hukum, keuangan, atau hal-hal faktual, pengguna seharusnya memverifikasi informasi secara independen melalui sumber otoritatif dan sumber primer, bukan hanya mengandalkan ringkasan yang disintesis AI. Memeriksa sumber yang dikutip secara langsung — alih-alih menerima karakterisasi AI terhadapnya — disarankan.