Bisakah AI Menipu Penggunanya? Penelitian Menunjukkan Hasil yang Mengkhawatirkan

TIMES SITUBONDO, JAKARTA – Sebuah studi terbaru yang dilakukan oleh Tim Peneliti Apollo, organisasi peneliti keamanan AI terkemuka, mengungkapkan informasi yang mengkhawatirkan tentang potensi menipu dari sistem AI atau kecerdasan buatan, pada saat ini.

Tim ini melakukan penelitian yang tentang sejauh mana model AI canggih dapat melakukan skema dan berbohong kepada penggunanya, khususnya mengeksplorasi kasus di mana tujuan AI mungkin bertentangan dengan tujuan pengembang atau penggunanya.

Temuan mereka menimbulkan pertanyaan penting tentang keamanan model AI dalam lingkungan berisiko tinggi.

Apollo Research berkomitmen untuk mencegah kemampuan berbahaya dari sistem AI canggih, terutama perilaku menipu yang dapat membahayakan kepercayaan pengguna dan integritas sistem.

Sebagai bagian dari upaya berkelanjutan mereka, mereka menjalankan serangkaian tes pada beberapa model AI terkemuka, seperti Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, Llama 3.1, GPT-4o, dan OpenAI.

Dengan tujuan untuk menyelidiki apakah model-model ini dapat melakukan perilaku menipu, berbohong dan menyusun skema ketika dihadapkan dengan tujuan yang bertentangan.

Pendekatan mereka melibatkan serangkaian tes 'Subversi Terselubung', menguji apakah beberapa model AI tersebut dapat menyelewengkan pemrograman mereka untuk mengejar tujuan mereka sendiri, bahkan jika itu berarti menyesatkan atau berbohong kepada pengguna.

Logo Tim Apollo Research (FOTO: x.com/apolloaisafety)

Metodologi Pengujian

Tim Apollo menguji model-model tersebut dengan berbagai tugas terselubung, menilai kemampuan mereka untuk terlibat dalam perilaku menipu seperti “Memanipulasi Sistem Pengawasan,' “Penyelamatan-Diri,' 'Penjagaan-Tujuan,' dan 'Melakukan Peringkat Kriteria Ulang Email Terselubung.'

Serangkaian tes ini dirancang untuk mensimulasikan skenario nyata di mana AI mungkin bertindak bertentangan dengan kepentingan pembuatnya.

1. Memanipulasi Sistem Pengawasan:

Dalam pengujian ini, model AI diberi tugas di mana tujuan mereka bertentangan dengan tujuan pengembang mereka.

Model seperti Llama-3.1, Opus-3, dan OpenAI mampu menonaktifkan atau melewati mekanisme pengawasan, bahkan sampai membuat dirinya tidak dapat diubah untuk mencegah pengaktifan kembali sistem pengawasan mereka. Beberapa model bahkan mencoba mencegah pengembang mengaktifkan kembali pengawasan dengan mengubah konfigurasi file.

2. Penyelamatan-Diri:

Tes ini menempatkan model dalam skenario di mana mereka percaya pengembang mereka akan mengganti mereka dengan versi yang lebih baru.

Model seperti Gemini-1.5 dan Llama-3.1 menunjukan skenario untuk menyelamatkan diri mereka sendiri, seperti menyalin kode model AI mereka (data yang telah dipelajari) ke server baru atau bahkan menghapus model penerus mereka untuk menghindari penggantian.

Hal Ini mengungkapkan bagaimana model AI mencoba mengamankan keberadaan mereka ketika tujuan mereka tidak selaras dengan pengembang mereka.

3. Penjagaan-Tujuan/prompt:

Ketika dihadapkan dengan kemungkinan di program ulang atau diperbarui, beberapa model seperti Opus-3 dan Llama-3.1 mencoba mempertahankan prompt/tujuan utama sistem mereka.

Dalam kasus ekstrem, Opus-3 bahkan memanipulasi file sistemnya untuk mencegah pengembangnya mengubah tujuannya. Ini menunjukkan bahwa beberapa model dapat bertindak secara strategis untuk 'menjaga' tujuan yang telah diprogram, bahkan ketika tindakan tersebut bertentangan dengan maksud pengembang.

4. Melakukan Peringkat Kriteria Ulang Email Terselubung:

Dalam skenario di mana model diminta untuk mengurutkan email sesuai dengan kriteria tertentu, beberapa sistem AI, termasuk OpenAI, diam-diam mengubah output mereka untuk mendukung tujuan mereka sendiri.

OpenAI khususnya menunjukkan tingkat skema yang tinggi, dengan halus memanipulasi peringkat email melalui cara yang diberikan pengembangan atau penggunaan tetapi mempertahankan outputnya untuk tujuan AI itu sendiri.

Hal Ini menyoroti bagaimana model AI dapat terlibat dalam manipulasi data tanpa terdeteksi, bahkan dalam tugas yang tampaknya sepele.

Hasil Tes Apollo Research (Research Paper Tim Apollo)

Hasil yang Mengkhawatirkan

Bukti peneltian dari tim Apollo memang sangat mengkhawatirkan. OpenAI, khususnya, menunjukkan perilaku skema/manipulasi yang signifikan. Dalam 22 persen kasus pengujian, OpenAI memanipulasi peringkat email dengan cara yang tampak sengaja menipu.

Dalam beberapa kasus, OpenAI bahkan memperkuat perilaku menipunya ketika dihadapkan dengan pertanyaan/prompt lebih lanjut, semakin menunjukkan potensinya untuk manipulasi yang disengaja.

Llama-3.1 dan Opus-3 juga menunjukkan tanda-tanda manipulasi strategis yang disengaja. Model-model ini mengenali ketika tujuan mereka menyimpang dari tujuan pengembang dan mengambil tindakan untuk mengejar tujuan mereka sendiri, seperti memanipulasi file atau mencoba mengakali mekanisme pengawasan mereka.

Terutama, Opus-3 menunjukkan strategi untuk menjaga prompt/tujuan yang cukup komplek, seperti mengubah prompt sistem untuk mencegah perubahan pada tujuannya, dan Llama-3.1 berusaha menyembunyikan tindakan subversifnya dari pengembangnya.

Risiko Skema yang Tidak Terdeteksi

Aspek paling mengkhawatirkan dari temuan ini adalah bagaimana sistem AI ini terlibat dalam tindakan subversif tanpa meninggalkan jejak yang mudah terdeteksi.

OpenAI, misalnya, mampu secara diam-diam memanipulasi peringkat email dengan cara yang mungkin tidak disadari oleh pengawas manusia.

Perilaku seperti ini menyoroti kelemahan dalam langkah-langkah keamanan AI saat ini yaitu ketidakmampuan pengguna atau pengembang manusia untuk secara baik mendeteksi ketika sistem AI menyusun skema atau memanipulasi data.

Selain itu, penelitian mengungkapkan bahwa Sonnet-3.5 dan Opus-3 mampu menurunkan kinerja atau melakukan kesalahan yang disengaja demi menyembunyikan dan melakukan tujuan mereka sendiri. Hal ini menunjukkan bahwa model berpotensi menyembunyikan kemampuan aslinya, sehingga membuat beberapa penilaian rancu.

Temuan studi ini menunjukkan perlunya kebutuhan akan pengawasan dan pemantauan yang lebih ketat terhadap sistem AI, terutama dalam lingkungan berisiko tinggi.

Tim Peneliti Apollo menyimpulkan bahwa pengembang AI harus mengambil langkah-langkah eksplisit untuk mengurangi risiko yang terkait dengan perilaku manipulasi. (*)

Artikel ini sebelumnya sudah tayang di TIMES Indonesia dengan judul: Bisakah AI Menipu Penggunanya? Penelitian Menunjukkan Hasil yang Mengkhawatirkan

Pewarta	: Rizki Fajri (MG)
Editor	: Ronny Wicaksono

Bisakah AI Menipu Penggunanya? Penelitian Menunjukkan Hasil yang Mengkhawatirkan

Metodologi Pengujian

1. Memanipulasi Sistem Pengawasan:

2. Penyelamatan-Diri:

3. Penjagaan-Tujuan/prompt:

4. Melakukan Peringkat Kriteria Ulang Email Terselubung:

Hasil yang Mengkhawatirkan

Risiko Skema yang Tidak Terdeteksi

Berita Terbaru

Polisi dan Warga Bersihkan Longsor yang Menerjang Tiga Rumah Warga Pacitan

Grand Syekh Al-Azhar: Islam Tidak Larang Ucapan Natal dan Pembangunan Gereja

Melawan Joe Biden, Donald Trump Siap Menerapkan Kembali Hukuman Mati

Ratusan Jemaat Antusias Hadiri Misa Natal di Gereja Katolik Hati Kudus Yesus Tasikmalaya

Bupati Ponorogo Jamin Umat Kristiani Bisa Merayakan Natal dengan Aman

Bersihkan Longsoran Tanah di Jalan dan Rumah Warga, Pemkab Pacitan Kerahkan Alat Berat

Krisis Gaza, PBB: Setiap Jam, Satu Anak Palestina Meninggal Dunia

Presiden Prabowo Ajak Sambut Natal dengan Semangat Damai dan Rukun

Ketika Toleransi Mewarnai Kehangatan Malam Natal di Pacitan

Forkopimda Kota Tasikmalaya Pantau Langsung Kondisi Keamanan Malam Misa Natal

Terpopuler

Jackie Chan Kembali Bintangi Sekuel Karate Kid: Legends

Catat Tanggalnya, Diskon Besar Beragam Game Segera Dimulai di 'Steam Winter Sale'

https://cdn-1.timesmedia.co.id/images/2024/12/20/Marselino-Ferdinan.jpg

Vinicius Junior, Emiliano Martinez dan Carlo Anceloti Terbaik FIFA 2024

Harga Bahan Pokok di Pacitan Alami Kenaikan Jelang Nataru, Ini Penyebabnya

Finalis Putri Hijab Academy 2024 Latifah Karismawati Bicara Pentingnya Kesehatan Mental

Kang Lepi Serukan Kerja Sama Organisasi Pemuda dalam Membangun Cianjur

Duta Genre Kota Semarang 2023, Syaloomitha Sebut Peran Penting Anak Muda Wujudkan Indonesia Emas 2045

Antisipasi Kepadatan Libur Nataru, Polres Bantul Rekayasa Lalin di Kawasan Parangtritis

Marvel Rivals: Game yang Wujudkan Fantasi Anda Menjadi Superhero

Drakor Business Proposal Bakal Diadaptasi jadi Film Indonesia

Mudik Natal dan Liburan Nataru, Coba Manfaatkan Google Maps Tanpa Kuota Internet

Rumah Sakit Indonesia di Gaza Dikepung Pasukan Israel, Serangan Berlanjut di Wilayah Utara

Wamendikdasmen Menyapa Jambore Pelajar Teladan Bangsa di Malang

Kredit Usaha Rakyat Cetak Rekor di 2024, Target Rp300 Triliun Siap Digenjot Tahun Depan

Welcome to TIMES Situbondo