Penelitian menemukan: Saran medis yang diberikan oleh AI hampir setengahnya bermasalah, Grok adalah yang terburuk, OpenAI masih memperluas ambisi medisnya

robot
Pembuatan abstrak sedang berlangsung

Berdasarkan penelitian terbaru yang dipublikasikan di BMJ Open, lima platform AI chatbot utama menunjukkan sekitar 50% jawaban mereka bermasalah, dengan hampir 20% dinilai “sangat bermasalah”. Bloomberg menyoroti bahwa penelitian ini mengungkap risiko sistemik dalam penerapan AI di bidang medis, terutama saat OpenAI dan Anthropic secara bersamaan memperluas kehadiran mereka di sektor kesehatan, yang terasa sangat ironis.
(Latar belakang: Jangan serahkan rekam medis Anda kepada chatbot? Taruhan privasi di balik ambisi medis ChatGPT)
(Tambahan latar: Penelitian Universitas California tentang fenomena “Kebingungan AI”: 14% pekerja kantor terganggu oleh Agen dan otomatisasi, dengan keinginan keluar kerja meningkat 40%)

Daftar Isi Artikel

Toggle

  • Grok tampil paling buruk, ChatGPT pun tidak kalah
  • Semakin yakin AI berbicara, semakin tinggi risikonya
  • OpenAI dan Anthropic: penelitian rem, bisnis tetap gas pol
  • Percaya AI, tapi harus dengan syarat

Lebih dari 230 juta orang setiap minggu bertanya tentang kesehatan dan medis ke ChatGPT, namun hampir setengah dari jawaban yang mereka terima berpotensi bermasalah. Berdasarkan penelitian yang dipublikasikan minggu ini di jurnal medis BMJ Open, para peneliti dari Amerika Serikat, Kanada, dan Inggris melakukan evaluasi sistematis terhadap lima platform utama, yaitu ChatGPT, Gemini, Meta AI, Grok, dan DeepSeek, dengan masing-masing mengajukan lima pertanyaan dari lima kategori medis berbeda.

Hasilnya tidak begitu optimis: sekitar 50% jawaban dinilai bermasalah, dan hampir 20% di antaranya sangat bermasalah.

Grok tampil paling buruk, ChatGPT pun tidak kalah

Bloomberg melaporkan bahwa performa masing-masing platform sangat bervariasi, tetapi tidak ada yang benar-benar lolos dari pengujian. Dari tingkat respons terhadap pertanyaan, Grok menempati posisi teratas dengan tingkat respons 58%, menjadikannya platform terburuk; diikuti oleh ChatGPT dengan tingkat masalah 52%; dan Meta AI sebesar 50%.

Para peneliti mengamati bahwa dalam pertanyaan tertutup serta topik terkait vaksin dan kanker, performa chatbot relatif lebih baik; namun dalam pertanyaan terbuka dan bidang seperti sel punca serta nutrisi, performa mereka menurun secara signifikan. Selain itu, hanya ada dua kejadian penolakan menjawab, semuanya berasal dari Meta AI (yang dalam beberapa hal, mengetahui bahwa mereka seharusnya tidak menjawab, justru menjadi keunggulan langka).

Lebih mengkhawatirkan lagi, jawaban dari AI ini sering dipenuhi rasa percaya diri tinggi, dengan nada afirmatif dan tanpa ragu. Peneliti menegaskan bahwa tidak ada satu pun chatbot yang mampu menyediakan daftar referensi lengkap dan akurat dalam setiap respons. Ini berarti, meskipun AI tampak “berdasarkan data”, sumber yang dikutip sering kali tidak dapat diverifikasi, bahkan mungkin tidak ada sama sekali.

Semakin yakin AI berbicara, semakin tinggi risikonya

Para peneliti menulis dalam makalah bahwa sistem ini mampu menghasilkan “respons yang terdengar seperti otoritatif, tetapi sebenarnya mungkin mengandung cacat”, menyoroti adanya “batasan besar dalam perilaku” AI chatbot dalam komunikasi kesehatan dan medis kepada publik, serta perlunya “peninjauan ulang terhadap cara penerapan mereka”.

Bloomberg juga mengutip peringatan dari tim peneliti: tanpa edukasi publik dan mekanisme pengawasan yang memadai, penyebaran besar-besaran chatbot berisiko besar mempercepat penyebaran informasi medis yang salah.

Sebagai perbandingan, studi dari JAMA menunjukkan bahwa tingkat kegagalan AI dalam diagnosis awal melebihi 80%; Universitas Oxford juga mengeluarkan peringatan pada Februari 2026, mengingatkan semua pihak untuk menyadari risiko sistemik dari AI dalam memberikan saran medis.

OpenAI dan Anthropic: penelitian rem, bisnis tetap gas pol

Waktu rilis penelitian ini sangat dramatis. Beberapa bulan sebelumnya, pada Januari 2026, OpenAI secara besar-besaran meluncurkan ChatGPT Health, sebuah fitur yang memungkinkan pengguna menghubungkan rekam medis elektronik, perangkat wearable, dan aplikasi kesehatan, serta menyediakan versi profesional untuk dokter. OpenAI menyatakan bahwa setiap hari ada 40 juta orang yang menggunakan ChatGPT untuk mencari informasi kesehatan.

Pada saat yang hampir bersamaan, Anthropic juga mengumumkan peluncuran Claude for Healthcare, yang telah mendapatkan sertifikasi HIPAA dan resmi memasuki pasar medis.

Platform-platform ini sama sekali tidak memiliki lisensi medis maupun kemampuan klinis, tetapi mereka berkembang dengan kecepatan mengagumkan ke bidang kesehatan. Ketegangan antara hasil penelitian dan ekspansi bisnis ini mengungkapkan adanya kekosongan regulasi: saat ini, tidak ada garis pembatas yang jelas antara promosi pasar alat AI medis dan keamanan medis nyata.

Percaya AI, tapi harus dengan syarat

Ini bukan kali pertama AI dalam bidang medis menjadi sorotan, tetapi setiap penelitian selalu mengingatkan hal yang sama: AI chatbot pada dasarnya adalah model bahasa yang mahir dalam “mengatakan sesuatu terdengar benar”, bukan “menjamin kebenaran”. Masalahnya, ketika pengguna yang sebenarnya memiliki kekhawatiran kesehatan mencari bantuan, rasa yakin yang terdengar benar sudah cukup mempengaruhi pengambilan keputusan mereka.

Seiring perusahaan seperti OpenAI dan Anthropic terus memperluas penggunaan di bidang medis, kecepatan regulasi dan edukasi publik jelas tertinggal dari perkembangan teknologi. Sebelum ada pengaturan yang jelas, penelitian ini mungkin mengingatkan kita: AI bisa menjadi pintu masuk informasi kesehatan, tetapi bukan akhir dari segalanya.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan