Rancang Bangun Sistem Deteksi Audio Deepfake Menggunakan Mel-Spectrogram dan ConvNext
Kata Kunci:
AsvSpoof 2021, Audio Deepfake, ConvNext, Klasifikasi, Mel-Spectrogram, STFTAbstrak
Audio deepfake merupakan audio atau suara yang dibuat dengan memanfaatkan AI yang mirip dengan suara manusia. Seiring dengan berkembangnya teknologi AI, audio deepfake semakin sulit untuk di bedakan dengan audio asli sehingga membutuhkan suatu sistem yang dapat digunakan untuk memudahkan manusia dalam melakukan klasifikasi antara audio deepfake dan asli. Penelitian ini bertujuan untuk membuat suatu sistem klasifikasi audio yang memanfaatkan teknik pemrosesan sinyal (signal processing) dan teknologi deep learning yaitu ConvNext. Teknik pemrosesan sinyal sendiri dilakukan untuk mengubah audio mentah menjadi spectrogram, pembentukan spectrogram sendiri melalui beberapa tahapan mulai dari melakukan pengambilan sampling (mencuplik) sinyal dengan menerapkan Short Time Fourier Transform (STFT) hingga memproyeksikannya kedalam bentuk Mel-Spectrogram. Dalam proses pelatihan, model yang sudah dilakukan pre-training menggunakan ImageNet1k dilakukan pelatihan kembali (Fine-tune) menggunakan data audio yang telah diubah bentuknya menjadi Mel-Spectrogram. Dataset yang digunakan untuk melakukan pelatihan dan evaluasi model diambil dari ASVSpoof 2021. Hasil penelitian menunjukkan bahwa sistem yang dilatih menggunakan Mel-Spectrogram dengan jumlah Mel 128 dan epoch sebanyak 15 menjadi model dengan tingkat akurasi yang paling tinggi, mencapai 88.4%
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2026 Muhammad Fadhli, Rudy Kurniawan

Artikel ini berlisensi Creative Commons Attribution-NonCommercial 4.0 International License.
