Sebuah studi Oumi baru yang dilaporkan oleh The New York Times menemukan bahwa Google AI Overviews tidak akurat 9% dari waktu — yang berarti puluhan juta jawaban yang salah per jam pada skala Google. Lebih dari setengah respons yang akurat juga mencantumkan sumber yang tidak sepenuhnya mendukung klaim mereka, sementara Google menyebut studi tersebut “secara serius cacat.”

Apa Makna Angka-angka Itu Sebenarnya pada Skala Google

Oumi menganalisis 4.326 pencarian yang dijawab oleh Gemini 2 pada bulan Oktober dan Gemini 3 pada bulan Februari, menemukan bahwa Gemini 2 mencapai akurasi 85% sementara Gemini 3 meningkat menjadi 91%. Secara individual, ini adalah angka yang dapat dipertanggungjawabkan untuk sistem AI generatif.

Tantangannya adalah volume. Dengan laju pencarian 5 triliun+ per tahun yang dilaporkan Google, perhitungannya menghasilkan gambaran yang mengkhawatirkan:

· ~14 juta respons AI yang tidak akurat dihasilkan setiap jam

· ~230.000 jawaban yang salah dikirim setiap menit

· ~4.000 kesalahan dihasilkan setiap detik pada penggunaan puncak

Argumen skala mengubah keseluruhan perdebatan akurasi: bahkan tingkat kesalahan yang kecil, ketika diterapkan pada sistem yang digunakan oleh miliaran orang, menjadi masalah misinformasi skala besar dalam istilah absolut.

Masalah “Grounding”: Sitasi yang Tidak Tahan Uji

Di luar angka akurasi mentah, Oumi mengidentifikasi isu terpisah yang—dan bisa dibilang—lebih mengkhawatirkan: “grounding” — apakah sumber yang dicantumkan dalam AI Overviews benar-benar mendukung klaim yang dibuat. Temuan menunjukkan bahwa Gemini 3, meskipun lebih akurat daripada pendahulunya, secara signifikan lebih buruk dalam memberikan sitasi yang benar-benar mendukung.

Di bawah Gemini 2, 37% dari jawaban yang benar tidak ter-grounding. Angka itu naik menjadi 56% di bawah Gemini 3 — artinya mayoritas respons yang akurat tetap menautkan ke sumber yang tidak sepenuhnya mendukung informasi yang diberikan. Ini menciptakan masalah verifikasi: pengguna yang mengeklik untuk “memastikan” jawaban mungkin menemukan bahwa sumber tersebut mengatakan sesuatu yang berbeda atau tidak lengkap.

Analisis sumber di 5.380 referensi yang disitasi juga memunculkan kekhawatiran platform. Facebook menempati peringkat sebagai sumber paling banyak disitasi kedua secara keseluruhan, sementara Reddit berada di peringkat keempat. Keduanya adalah platform media sosial di mana konten yang dibuat pengguna dan belum diverifikasi sangat lazim — menempatkannya di bagian teratas dari hasil pencarian yang disintesis AI memberi mereka otoritas yang tidak semestinya. Facebook disitasi pada 5% dari respons yang akurat dan 7% dari respons yang tidak akurat, yang menunjukkan pola yang layak dipantau.

Pembelaan Google: Pertanyaan tentang Metodologi dan Data Internal

Google tidak menerima kesimpulan studi tersebut tanpa bantahan. Juru bicara Ned Adriance mempertanyakan desain fundamental dari analisis tersebut: Oumi mengevaluasi akurasi AI Google menggunakan model AI miliknya sendiri, yang menghadirkan kekeliruan metodologis yang melingkar — jika model Oumi juga bisa membuat kesalahan, penilaiannya tentang kesalahan Google mungkin juga tidak dapat diandalkan.

“Studi ini memiliki lubang yang serius,” kata Adriance. “Studi ini tidak mencerminkan apa yang sebenarnya dicari orang di Google.”

Google juga merilis data perbandingan miliknya sendiri. Perusahaan tersebut menyatakan bahwa Gemini 3 yang berdiri sendiri — beroperasi tanpa konteks tambahan yang disediakan oleh AI Overviews — tidak akurat 28% dari waktu, yang mengisyaratkan bahwa sistem AI Overviews menyediakan peningkatan akurasi yang berarti dibanding output model mentah. Perusahaan mempertahankan penafian standar mereka di bagian bawah semua AI Overviews: “AI dapat membuat kesalahan, jadi periksa kembali respons.”

FAQ

Apa itu Google AI Overviews dan kapan diperkenalkan?

Google AI Overviews adalah ringkasan yang dihasilkan AI yang muncul di bagian atas hasil Google Search, yang menyintesis jawaban atas pertanyaan pengguna dan mencantumkan sumber web pendukung. Ditenagai oleh model Gemini milik Google, fitur ini diperkenalkan secara luas pada 2024 dan kini muncul di miliaran pencarian secara global. AI Overviews berbeda dari hasil pencarian standar, karena mereka menghasilkan teks alih-alih sekadar mencantumkan tautan.

Apa yang dimaksud dengan “ungrounded” dalam konteks ini, dan mengapa itu penting?

AI Overview dianggap “ungrounded” ketika situs web yang dikutipnya tidak benar-benar memverifikasi atau sepenuhnya mendukung informasi yang disajikan dalam ringkasan. Ini bermasalah karena pengguna yang mencoba memeriksa sebuah klaim dengan mengeklik sumber yang dicantumkan mungkin menemukan bahwa sumber tersebut menyangkal, mendukung sebagian, atau sama sekali tidak berhubungan dengan pernyataan AI — sehingga melemahkan peran sistem sebagai alat informasi yang dapat diandalkan dan membuat verifikasi independen menjadi lebih sulit.

Bagaimana seharusnya pengguna mendekati AI Overviews mengingat kekhawatiran akurasi ini?

Google sendiri mengakui keterbatasannya melalui penafian bawaan bahwa AI bisa membuat kesalahan. Untuk pertanyaan berisiko rendah, AI Overviews mungkin memberikan titik awal yang berguna. Untuk keputusan terkait kesehatan, hukum, keuangan, atau hal-hal faktual, pengguna seharusnya memverifikasi informasi secara independen melalui sumber otoritatif dan sumber primer, bukan hanya mengandalkan ringkasan yang disintesis AI. Memeriksa sumber yang dikutip secara langsung — alih-alih menerima karakterisasi AI terhadapnya — disarankan.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

Tidak ada komentar