DeepSeek AI: Skandal Plagiarisme Gemini, Latih Model Curang?

Chatbot AI asal Tiongkok, DeepSeek, kembali menjadi sorotan setelah diduga menggunakan output dari model Gemini milik Google untuk melatih model AI terbarunya, R1-0528. Meskipun DeepSeek belum memberikan pernyataan resmi, kecurigaan ini muncul dari sejumlah peneliti AI yang menemukan indikasi kuat terkait penggunaan data Google Gemini.

Dugaan ini diperkuat oleh temuan Sam Paech, seorang pengembang dari Melbourne. Paech, yang mengembangkan alat evaluasi “kecerdasan emosional” untuk AI, mempublikasikan bukti yang ia klaim menunjukkan pelatihan R1-0528 menggunakan output Gemini.

DeepSeek Diduga Gunakan Data Google Gemini untuk Melatih R1-0528

Menurut Paech, model R1-0528 menunjukkan preferensi terhadap kata-kata dan ekspresi yang mirip dengan Gemini 2.5 Pro. Ia mempublikasikan temuannya di platform X, menyatakan kecurigaannya bahwa DeepSeek beralih dari menggunakan data OpenAI ke Google Gemini.

Peneliti lain, yang mengembangkan alat evaluasi “kebebasan berbicara” untuk AI bernama SpeechMap, juga mengamati adanya “jejak” yang mirip dengan Gemini dalam output model DeepSeek. Walaupun bukan bukti mutlak, hal ini semakin memperkuat kecurigaan tersebut.

Sejarah Tuduhan Penggunaan Data Model AI Pesaing oleh DeepSeek

Ini bukan kali pertama DeepSeek dituduh menggunakan data dari model AI pesaing. Pada Desember lalu, model V3 DeepSeek sering mengidentifikasi dirinya sebagai ChatGPT, mengindikasikan kemungkinan pelatihan menggunakan log percakapan ChatGPT.

OpenAI sendiri telah menyatakan kepada Financial Times bahwa mereka menemukan bukti yang menghubungkan DeepSeek dengan praktik distilasi data. Distilasi merupakan teknik pelatihan AI dengan mengekstrak data dari model yang lebih besar dan canggih.

Microsoft juga terlibat dalam investigasi ini. Menurut Bloomberg, Microsoft mendeteksi sejumlah besar data diekstraksi melalui akun pengembang OpenAI pada akhir 2024, akun-akun yang diyakini terafiliasi dengan DeepSeek.

Permasalahan Konten AI dan Pelatihan Model di Era Web Terbuka

Meskipun distilasi bukanlah praktik yang ilegal, ketentuan layanan OpenAI melarang penggunaan output modelnya untuk membangun AI pesaing. Namun, situasi ini kompleks karena banyak model AI dapat secara keliru mengidentifikasi diri mereka sendiri dan menggunakan kata-kata serta frasa yang serupa.

Hal ini disebabkan oleh meluasnya konten yang dihasilkan AI di web terbuka, sumber data utama pelatihan AI. Konten ini sering berasal dari “peternakan konten” yang menggunakan AI untuk membuat clickbait dan bot yang membanjiri platform online.

Kondisi ini membuat sulit bagi perusahaan AI untuk menyaring output AI dari dataset pelatihan mereka. “Kontaminasi” data ini menjadi tantangan besar dalam pengembangan AI yang etis dan transparan.

Meskipun belum ada bukti definitif yang secara penuh membuktikan penggunaan output Gemini oleh DeepSeek, kesamaan dalam gaya bahasa antara R1-0528 dan Gemini 2.5 Pro tetap menimbulkan pertanyaan serius. Hal ini menekankan perlunya transparansi dan etika dalam praktik pelatihan data model AI.

Kejadian ini menyoroti dilema yang dihadapi pengembang AI di era web terbuka. Di satu sisi, akses ke data yang melimpah sangat penting untuk mengembangkan model yang canggih. Di sisi lain, memastikan penggunaan data yang etis dan legal menjadi tantangan yang kompleks dan perlu diatasi.

Ke depan, regulasi yang lebih ketat dan standar etika yang lebih jelas akan sangat penting untuk memastikan pengembangan AI yang bertanggung jawab dan mencegah penyalahgunaan data.

Post Views: 4