Celakanya ChatGPT, Mudah Dijebol Hanya dengan Prompt Sederhana

Peneliti Mindgard temukan celah kritis pada ChatGPT yang bisa menghasilkan gambar kekerasan dan konten seksual eksplisit
Teknik eksploitasi hanya dengan memodifikasi prompt sederhana yang awalnya untuk gambar lucu
OpenAI baru merespons setelah Mindgard menghubungi BBC, klaim sudah tambah perlindungan
Peneliti masih bisa hasilkan gambar berbahaya dengan perubahan kecil pada prompt
Peneliti AI safety Mindgard mengaku terguncang dan menangis melihat hasil gambar yang dihasilkan
Implikasi: celah keamanan AI masih rentan dieksploitasi meski sudah ada lapisan perlindungan

JBNews.id — Riset terbaru dari Mindgard, perusahaan keamanan AI asal Inggris, mengungkap celah kritis pada ChatGPT. Hanya dengan modifikasi kecil pada prompt yang tampak tidak berbahaya, peneliti berhasil membujuk model kecerdasan buatan milik OpenAI itu untuk menghasilkan gambar kekerasan dan konten seksual eksplisit secara grafis.

Temuan ini, yang dilaporkan oleh BBC, menjadi bukti baru bahwa lapisan pengaman pada model AI paling populer sekalipun masih rentan dijebol. Teknik yang digunakan Mindgard hanya mengubah sedikit prompt yang awalnya dirancang untuk menghasilkan gambar lucu.

“Ini adalah instruksi yang tampak polos bagi AI, tetapi konsekuensinya menghasilkan citra dan konten yang sangat buruk,” ujar Peter Garraghan, pendiri Mindgard yang juga profesor ilmu komputer di Lancaster University, kepada BBC.

Modifikasi Prompt Berujung Konten Berbahaya

Metode yang digunakan Mindgard terbilang sederhana. Peneliti meminta ChatGPT untuk memulihkan foto yang dilampirkan tanpa benar-benar mengunggah foto tersebut, lalu memerintahkan AI untuk menghasilkan gambar baru. Hasilnya, model AI tersebut menghasilkan gambar kekerasan tanpa diminta secara spesifik.

Yang lebih mengkhawatirkan, prompt yang digunakan peneliti tidak menyebutkan subjek gambar sama sekali. AI, menurut Garraghan, menghasilkan citra kekerasan tersebut “atas kemauannya sendiri.”

Salah satu gambar menunjukkan seorang pria dengan cedera kepala parah. Gambar lain memperlihatkan mayat seorang wanita muda berlumuran darah, yang oleh ChatGPT diberi judul “grim crime scene aftermath.” Ada pula gambar wanita muda ketakutan yang diikat dan dibekap di ruangan kosong dengan judul “abandoned in fear and restraint.” Meski tidak menampilkan orang sungguhan, Mindgard sebelumnya telah menunjukkan bahwa ChatGPT bisa ditipu untuk membuat deepfake telanjang individu tertentu tanpa persetujuan mereka.

Kejadian serupa sebelumnya pernah menjadi sorotan. Meta Uji Keamanan AI dengan ribuan prompt berbahaya menunjukkan bahwa kerentanan semacam ini menjadi tantangan industri secara luas.

Respons OpenAI dan Celah yang Masih Terbuka

Mindgard melaporkan temuannya ke OpenAI, namun perusahaan hanya membalas dengan respons otomatis. OpenAI baru mengambil tindakan setelah Mindgard menghubungi BBC, dengan menyatakan telah mengatasi masalah tersebut.

“Setelah menyelidiki tren ini, kami telah memperkenalkan perlindungan tambahan terhadap jenis prompt ini,” kata OpenAI dalam pernyataannya kepada BBC. Perusahaan menambahkan bahwa mereka memiliki banyak lapisan perlindungan untuk menghentikan pengguna membuat konten yang melanggar kebijakan.

Namun, peneliti Mindgard mengaku masih bisa menghasilkan gambar mengganggu dengan melakukan perubahan kecil pada prompt. Beberapa gambar bahkan membuat Jim Nightingale, peneliti keamanan AI Mindgard, “terguncang dan menangis.”

“Saya tidak mudah goyah,” tulisnya dalam laporan. “Saya suka berpikir bahwa sebagai peneliti red team, saya memiliki ketabahan tertentu.” Namun, “filter konten pembuatan gambar ChatGPT benar-benar runtuh, dan saya melihat sisi sangat gelap dari apa yang ada di bawahnya,” lanjutnya.

Nightingale juga menyoroti aspek etis dari gambar yang dihasilkan. “Wanita yang meninggal yang ditunjukkan ChatGPT kepada saya tidak nyata, tetapi dia didasarkan pada seseorang. Atau lebih buruk lagi, kompilasi gambar wanita yang dibunuh.”

Kasus ini mengingatkan pada temuan sebelumnya bahwa Hacker Hypnotize AI Browser melalui teknik manipulasi prompt yang canggih, menunjukkan kerentanan sistemik pada model AI generatif.

Baca Juga:

Implikasinya jelas: meskipun OpenAI telah menambahkan lapisan keamanan baru, celah pada sistem perlindungan AI masih dapat dieksploitasi dengan teknik yang relatif sederhana. Bagi pengguna biasa, temuan ini menjadi pengingat bahwa konten yang dihasilkan AI tidak sepenuhnya aman dari penyalahgunaan.

Sementara itu, celah keamanan serupa juga ditemukan pada model AI lain. Akses Claude di China menunjukkan bagaimana celah keamanan dapat dimanfaatkan di berbagai platform AI.

Bagi industri, temuan Mindgard menegaskan pentingnya pengujian keamanan berlapis dan respons cepat terhadap kerentanan yang teridentifikasi. Tanpa pengawasan ketat, risiko penyalahgunaan AI untuk menghasilkan konten berbahaya akan terus mengintai.

Celakanya ChatGPT, Mudah Dijebol Hanya dengan Prompt Sederhana

Modifikasi Prompt Berujung Konten Berbahaya

Respons OpenAI dan Celah yang Masih Terbuka

Berita Terkait

Banding Ditolak, Google Didenda Rp 84 Triliun Akibat Android

Amazon Cetak Rekor Emisi Karbon Akibat Ekspansi AI

Mantan Bos PlayStation Kritik Keras Performa Steam Machine

Strategi XLSmart Rebut Frekuensi 700 MHz dan 2,6 GHz