Sistem Identifikasi Pembicara Berbahasa Indonesia Menggunakan X-Vector Embedding
Alim Misbullah,Muhammad Saifullah Sani,Husaini,Laina Farsiah,Zahnur,Kikye Martiwi Sukiakhy
DOI: https://doi.org/10.25126/jtiik.20241127866
2024-08-26
Jurnal Teknologi Informasi dan Ilmu Komputer
Abstract:Penyemat pembicara adalah vektor yang terbukti efektif dalam merepresentasikan karakteristik pembicara sehingga menghasilkan akurasi yang tinggi dalam ranah pengenalan pembicara. Penelitian ini berfokus pada penerapan x-vectors sebagai penyemat pembicara pada sistem identifikasi pembicara berbahasa Indonesia yang menggunakan model speaker identification. Model dibangun dengan menggunakan dataset VoxCeleb sebagai data latih dan dataset INF19 sebagai data uji yang dikumpulkan dari suara mahasiswa Jurusan Informatika Universitas Syiah Kuala angkatan 2019. Untuk membangun model, fitur-fitur diekstrak dengan menggunakan Mel-Frequency Cepstral Coeffients (MFCC), dihitung Voice Activity Detection (VAD), dilakukan augmentasi dan normalisasi fitur menggunakan Cepstral Mean and Variance Normalization (CMVN) serta dilakukan filtering. Sedangkan proses pengujian model hanya membutuhkan fitur-fitur yang diekstrak dengan menggunakan MFCC dan dihitung VAD saja. Terdapat 4 (empat) model yang dibangun dengan cara mengombinasikan dua jenis konfigurasi MFCC dan dua jenis arsitektur Deep Neural Network (DNN) yang memanfaatkan Time Delay Neural Network (TDNN). Model terbaik dipilih berdasarkan akurasi tertinggi yang dihitung menggunakan metrik Equal Error Rate (EER) dan durasi ekstraksi x-vectors tersingkat dari keempat model. Nilai EER dari model yang terbaik untuk dataset VoxCeleb1 bagian test sebesar 3,51%, inf19_test_td sebesar 1,3%, dan inf19_test_tid sebesar 1,4%. Durasi ekstraksi x-vectors menggunakan model terbaik untuk data train berdurasi 6 jam 42 menit 39 detik, VoxCeleb1 bagian test berdurasi 2 menit 24 detik, inf19_enroll berdurasi 18 detik, inf19_test_td berdurasi 25 detik, dan inf19_test_tid berdurasi 9 detik. Arsitektur DNN kedua dan konfigurasi MFCC kedua yang telah dirancang menghasilkan model yang lebih kecil, akurasi yang lebih baik terutama untuk dataset pembicara berbahasa Indonesia, dan durasi ekstraksi x-vectors yang lebih singkat. Abstract The speaker embedding is a vector that has been proven effective in representing speaker characteristics, resulting in high accuracy in the domain of speaker recognition. This research focuses on the application of x-vectors as speaker embeddings in the Indonesian language speaker identification system using a speaker identification model. The model is built using the VoxCeleb dataset as training data and the INF19 dataset as testing data, collected from the voices of students of Informatics Department, Universitas Syiah Kuala from the 2019 batch. To build the model, features are extracted using Mel-Frequency Cepstral Coefficients (MFCC), Voice Activity Detection (VAD) is applied, augmentation and normalization of features are performed using Cepstral Mean and Variance Normalization (CMVN), and filtering is applied. On the other hand, the model testing process only requires features extracted using MFCC and computed VAD. There are 4 (four) models are constructed by combining two configurations of MFCC and two types of Deep Neural Network (DNN) architectures that utilize the Time Delay Neural Network (TDNN). The best model is selected based on the highest accuracy calculated using the Equal Error Rate (EER) metric and the shortest duration of x-vector extraction from the four models. The EER values for the best model on the VoxCeleb1 test dataset are 3.51%, 1.3% for inf19_test_td, and 1.4% for inf19_test_tid. The x-vector extraction duration using the best model for the training dataset is 6 hours 42 minutes 39 seconds, 2 minutes 24 seconds for VoxCeleb1 test part, 18 seconds for inf19_enroll, 25 seconds for inf19_test_td, and 9 seconds for inf19_test_tid. The second DNN architecture and the second MFCC configuration designed result in a smaller model, better accuracy, especially for Indonesian language speaker datasets, and shorter x-vector extraction duration.