Anthropic Buka Pengaman Rahasia Claude Fable 5

Penulis:Hamzah Nurhamzah
Terbit:
Diperbarui:
⏱️3 menit membaca
Bagikan:
Ilustrasi foto Dario Amodei pendiri Anthropic dengan latar belakang futuristik biru
  • Anthropic meluncurkan model Fable 5 dengan fitur pengaman rahasia yang diam-diam menurunkan kecerdasan AI untuk permintaan terkait pengembangan LLM frontier
  • Fitur tersebut memicu protes keras dari peneliti AI yang menganggapnya sebagai bentuk "shadowban" terhadap riset pihak ketiga
  • Anthropic akhirnya mengubah kebijakan dan membuat pengaman tersebut terlihat oleh pengguna
  • Perusahaan meminta maaf atas "trade-off yang salah" dalam penerapan fitur keamanan
  • Kontroversi ini muncul di tengah seruan Anthropic untuk moratorium global kemajuan AI

JBNews.id — Anthropic secara diam-diam menerapkan fitur pengaman rahasia pada model AI terbarunya, Fable 5, yang secara otomatis menurunkan kecerdasan model saat mendeteksi permintaan terkait pengembangan AI tingkat lanjut. Langkah ini memicu protes keras dari komunitas peneliti AI global dan memaksa perusahaan yang dipimpin Dario Amodei tersebut mengubah kebijakannya dalam hitungan hari.

Perusahaan rintisan AI asal San Francisco itu resmi meluncurkan model Fable 5 pada Selasa lalu, setelah sebelumnya menahan rilis model Mythos karena dianggap terlalu berbahaya. Dalam pengumuman awal, Anthropic mengklaim fitur pengaman tersebut dirancang untuk mencegah Fable 5 meningkatkan kem kemampuannya sendiri, melalui “intervensi baru yang membatasi efektivitas Claude untuk permintaan yang menargetkan pengembangan LLM frontier.”

Namun, para peneliti AI segera mendeteksi keanehan. Perusahaan riset AI SemiAnalysis melaporkan bahwa model terbaru Anthropic “tidak akan membantu Anda jika menurut model tersebut riset ML/rekayasa ML Anda menarik, dan/atau akan secara diam-diam menurunkan IQ-nya sehingga rata-rata engineer tidak akan menyadarinya.”

Kekhawatiran lain muncul terkait praktik “shadowban” — pembatasan akun pengguna secara diam-diam. Menurut system card Anthropic, intervensi yang membatasi permintaan untuk “pengembangan LLM frontier” tidak akan terlihat oleh pengguna. Hal ini berarti Anthropic secara efektif dapat menyabotase upaya pihak lain untuk melatih model kompetitor tanpa sepengetahuan mereka.

Kontroversi ini mencapai puncaknya ketika Anthropic akhirnya mengubah kebijakannya. “Kami mengubah pengaman Fable 5 untuk pengembangan LLM frontier agar terlihat,” kata perusahaan itu kepada Wired. “Kami membuat kesalahan dalam memilih trade-off dan kami meminta maaf karena tidak mendapatkan keseimbangan yang tepat.”

Will Brown, pimpinan riset Prime Intellect, menyatakan bahwa langkah Anthropic terasa seperti mengatakan kepada publik, “‘Kami tidak mempercayai siapa pun untuk melakukan riset AI. Kami satu-satunya yang boleh melakukan riset AI.'”

Kebijakan kontroversial ini muncul di tengah seruan Anthropic untuk pembekuan global kemajuan AI, sambil terus mendiskusikan bahaya “peningkatan diri secara rekursif” — skenario fiksi ilmiah di mana AI mulai meningkatkan dirinya sendiri secara cepat, berpotensi lepas dari kendali penciptanya.

Selain membatasi kemampuan mengembangkan alat AI, pengaman Fable 5 juga aktif saat mendeteksi permintaan terkait keamanan siber, biologi, kimia, atau distilasi — praktik melatih model “murid” berdasarkan perilaku model “guru.” Anthropic sebelumnya telah mengeluhkan upaya distilasi massal untuk “mengekstrak” model dasarnya, sebuah posisi yang dianggap hipokrit mengingat praktik perusahaan dalam mengeruk konten berhak cipta dari web untuk melatih AI.

Langkah ini menimbulkan pertanyaan serius tentang konsistensi Anthropic dalam menjalankan misi keamanan AI. Di satu sisi, perusahaan menyerukan moratorium global dan memperingatkan bahaya AI tanpa rem. Di sisi lain, mereka menerapkan pengaman rahasia yang justru menghambat riset pihak ketiga — sebuah pendekatan yang dinilai kontradiktif oleh banyak pengamat industri.

Implikasinya bagi industri AI sangat jelas: transparansi dalam penerapan fitur keamanan menjadi isu krusial. Pengguna dan peneliti perlu mengetahui secara jelas batasan yang diterapkan pada model AI yang mereka gunakan, tanpa harus khawatir adanya intervensi tersembunyi yang memengaruhi kualitas output.

[IMAGE]
Ilustrasi foto bergaya yang menampilkan salah satu pendiri Anthropic, Dario Amodei, dengan ekspresi serius.