Pengambilan dataset audio
Halo sobat AI, ketemu lagi nih dengan materi akuisisi data. Okeh, pada section kali ini kita akan mempelajari tentang materi pengambilan dataset audio. Pasti penasaran kan apa sih bedanya dengan pengambilan dataset image, yuk mari kita mulai
Setelah mempelajari pengambilan dataset image maka teman-teman pasti bertanya apa sih bedanya dengan dataset audio. Pasti sih beda di jenis datanya yaa gaess karena jenis data yang akan kita pelajari itu data audio hehe. sebenarnya ada banyak perbedaan diantara keduanya seperti format file, metode preprocessing, karakteristik yang dianalisis dan lain-lain. Untuk lebih tau lebih jelasnya, bisa lihat pada bagian selanjutnya ya.
Dataset audio merupakan kumpulan data yang terdiri dari file audio digital yang dikumpulkan dari berbagai sumber, seperti rekaman suara manusia, rekaman musik, rekaman suara lingkungan, dan lain sebagainya. Dataset audio ini digunakan untuk mengembangkan model machine learning untuk tugas seperti pengenalan suara, klasifikasi audio, pemrosesan suara, atau tugas-tugas lain yang berkaitan dengan audio.
Kumpulan data audio biasanya terdiri dari beberapa file audio dengan panjang bervariasi dan dapat diambil dari berbagai sumber, seperti rekaman lapangan, rekaman penelitian, atau file audio yang sudah ada sebelumnya di Internet. Kumpulan data audio dapat direkam menggunakan peralatan perekam audio dan perangkat lunak pengolah audio untuk memastikan rekaman berkualitas baik.
Gambar 1. Data audio dengan variasi frekuensi
Mengambil kumpulan data audio dapat memakan waktu dan mahal, bergantung pada jumlah data yang dibutuhkan dan kualitas rekaman yang diinginkan. Kumpulan data audio yang lebih besar dan berkualitas lebih tinggi seringkali dapat menghasilkan hasil yang lebih baik dalam mengembangkan model pembelajaran mesin.
Kemudian data-data pada dataset audio juga memiliki jenis nya sendiri berdasarkan dari fungsi pada yang digunakan untuk pengolahan suara. Berikut jenis-jenis data dari audio tersebut :
Data ini berisi rekaman suara manusia yang berbicara. Data ini sering digunakan untuk tugas pengenalan suara, pemrosesan bahasa alami, atau tugas-tugas yang berkaitan dengan suara manusia.
Data ini berisi rekaman musik, baik yang direkam secara langsung atau yang tersedia dalam bentuk file audio digital. Data ini sering digunakan untuk tugas klasifikasi musik, pemrosesan musik, atau tugas-tugas yang berkaitan dengan musik.
Data ini berisi rekaman suara lingkungan, seperti suara alam, suara kendaraan, atau suara industri. Data ini sering digunakan untuk tugas deteksi kejadian, pemrosesan suara lingkungan, atau tugas-tugas yang berkaitan dengan lingkungan.
Data ini berisi rekaman suara hewan, seperti suara burung, mamalia, atau binatang laut. Data ini sering digunakan untuk tugas pengenalan suara hewan, pemrosesan suara hewan, atau tugas-tugas yang berkaitan dengan kebun binatang atau alam.
Data ini berisi rekaman suara yang dihasilkan dari alat medis, seperti stetoskop atau ultrasound. Data ini sering digunakan untuk tugas diagnostik medis, pemantauan pasien, atau tugas-tugas yang berkaitan dengan bidang kesehatan.
Tidak jauh beda dengan proses dari sistem AI pada image, sistem AI pada audio juga melalui tahap preprocessing dan ekstraksi fitur agar dapat dikenali jenis atau kelas dari data-data audio tersebut. Lebih jauhnya, model machine learning tidak dapat memproses data mentah dalam bentuk audio melainkan hanya dapat pada data numerik. Oleh karena itu, kemampuan untuk mengekstraksi fitur pada audio sangat penting untuk dilakukan. Nah teman-teman bisa berkenalan terlebih dahulu apa saja sih fitur-fitur yang ada pada dataset audio. Mari kita lihat :
● Chromagram
Merupakan fitur pada nada yang memiliki 12 kelas nada. Kedua belas kelas nada ini merujuk kepada tinggi rendahnya suatu nada pada suara. Salah satu properti utama dari fitur kroma adalah bahwa mereka menangkap karakteristik musik yang harmonis dan melodi, sekaligus kuat terhadap perubahan timbre dan instrumentasi.
● Zero Crossing Rate (ZCR)
Sebuah laju perubahan tanda sinyal dari positif ke nol ke negatif atau dari negatif ke nol ke positif. Sebagai contoh, sinyal dengan ZCR yang tinggi dapat menunjukkan suara yang lebih berdenyut atau berisik, sementara sinyal dengan ZCR yang rendah dapat menunjukkan suara yang lebih halus dan kontinu.
● Root Mean Square Energy (RMSE)
Energi sinyal yang sesuai dengan besaran total sinyal. Apabila kita aplikasikan pada sinyal audio maka RMSE akan merujuk kepada seberapa keras sinyal yang berbanding lurus dengan tinggi rendahnya suara.
● Sprental Centroid
Ukuran yang digunakan dalam pemrosesan sinyal digital untuk mengkarakterisasi spektrum sehingga dapat mengetahui pusat massa pada spektrum.
● Mel-Frequency Cepstral Coefficient (MFCC)
Sebuah koefisien yang mencangkup windowing pada sinyal dengan mengambil log besarnya dan kemudian membelokkan frekuensi pada skala Mel. Windowing ini berfungsi dalam proses pemfilteran suatu sinyal audio.
Setelah mengetahui apa saja fitur-fitur yang dapat kita ekstrak pada dataset audio maka sekarang kita akan mempelajari metode-metode apa saja yang dapat digunakan dalam proses pengambilan dataset audio, sobat AI bisa baca poin-poin penjelasan berikut ini ya
Mencari dataset yang sudah tersedia secara online
Sama seperti image, dataset audio yang tersedia di internet dapat berbayar maupun gratis. Beberapa platform atau website yang menyediakan dataset audio yaitu antara lain :
Situs web yang memungkinkan pengguna untuk berbagi, mengunggah, dan mengunduh berbagai jenis file audio secara gratis. Freesound menyediakan berbagai jenis kumpulan data audio, termasuk kumpulan data suara lingkungan, kumpulan data instrumen, kumpulan data suara manusia, dan banyak lagi.
Kumpulan data audio berisi rekaman 10 jenis suara lingkungan yang berbeda, termasuk suara kereta api, suara mobil, dan suara binatang. Kumpulan data ini dikembangkan untuk tujuan pengenalan ucapan otomatis.
Kumpulan data audio berisi sekitar 105.000 klip audio dari 30 perintah suara yang berbeda, termasuk perintah "on", "off", dan "off".[1] Dataset ini digunakan untuk membangun sistem pengenalan suara.
Proyek sumber terbuka yang dikembangkan oleh Mozilla yang berisi kumpulan data ucapan manusia untuk bahasa tertentu. Dataset ini dapat diunduh secara gratis dan digunakan untuk berbagai keperluan, antara lain pengenalan suara, text-to-speech, dan lain-lain.
Kumpulan data audio yang berisi suara orang terkenal dan orang biasa. Dataset ini digunakan untuk melatih pengenalan suara dan sistem verifikasi suara.
Mengambil audio sendiri:[2]
Sama seperti pengambilan dataset image, dataset audio sendiri ini dilakukan apabila dataset yang diinginkan tidak tersedia di internet ataupun sobat AI ingin suatu dataset yang originalitasnya milik sendiri. Proses pengambilan audio sendiri ini dapat dilakukan dengan menggunakan microphone atau perangkat perekam suara lainnya.
Adapun langkah-langkah yang sobat AI dapat ikuti agar proses pengambilan dataset audio yang baik dan benar.
1. Persiapkan peralatan perekam suara yang memadai. Sobat AI bisa menggunakan perekam suara digital atau aplikasi perekam suara di ponsel. Pastikan kualitas suara yang dihasilkan memadai dan jangan lupa untuk memastikan keamanan lingkungan sekitar selama proses perekaman yaa.
2. Tentukan jenis data audio yang ingin diambil. Misalnya, jika Anda ingin mengambil dataset suara lingkungan, sobat AI dapat merekam suara alam, suara lalu lintas, atau suara industri. Atau jika Anda ingin mengambil dataset suara manusia, Anda bisa merekam percakapan atau dialog antara beberapa orang.
3. Perhatikan hak privasi yang berlaku saat proses pengambilan audio di tempat-tempat tertentu
4. Saat proses perekaman, perhatikan lokasi dan waktu perekamannya. Hal ini penting agar mendapatkan kualitas suara yang baik dan minim terhadap gangguan atau noise dari suara lainnya.
Demikian penjabaran materi mengenai proses pengambilan dataset audio secara manual, sobat AI dapat ikuti yaa semangaaat...
Preprocessing data audio
Preprocessing data audio ini juga merupakan langkah penting dalam membangun model AI berbasis suara. Proses preprocessing data audio dilakukan untuk memperbaiki atau meningkatkan kualitas dari dataset audio sebelum sampai ke proses pengolahan. Preprocessing dataset audio umumnya dilakukan dengan serangkaian metode perubahan dan modifikasi variabel pada data audio. Berikut beberapa langkah umum untuk melakukan pra pemrosesan dataset audio:
Dataset audio dapat memiliki format file yang berbeda, seperti MP3, WAV, atau FLAC. Sebelum melakukan preprocessing, perlu dilakukan konversi format audio agar dapat diproses oleh software pengolah audio yang digunakan.
● Normalisasi
Normalisasi dilakukan untuk menormalkan level amplitudo dalam kumpulan data audio. Ini penting agar dataset audio memiliki volume yang stabil.
● Penyaringan
Pemfilteran dilakukan untuk menghilangkan derau atau suara yang tidak diinginkan dari kumpulan data audio. Misalnya, jika kumpulan data audio berasal dari lingkungan yang bising, filter derau dapat diterapkan untuk mengurangi derau yang tidak diinginkan.
● Ekstraksi Fitur
Ekstraksi fitur dilakukan untuk mengekstrak informasi penting dari dataset audio. Fitur yang diekstraksi dapat berupa besaran, durasi, energi atau frekuensi. Karakteristik ini kemudian dapat digunakan untuk analisis atau pemrosesan lebih lanjut.
● Normalisasi Frekuensi
Normalisasi frekuensi dilakukan untuk menyamakan spektrum frekuensi dalam kumpulan data audio. Hal ini penting untuk menghindari kesalahan analisis yang disebabkan oleh pergeseran frekuensi yang tidak seimbang dalam kumpulan data audio. [3]
Setelah dilakukan preprocessing, dataset audio siap untuk dilakukan analisis atau pemrosesan lebih lanjut. Proses preprocessing ini penting untuk memastikan bahwa dataset audio yang digunakan memiliki kualitas yang memadai dan siap digunakan dalam analisis atau proses dataset audio