Skip to main content

1. Prosedur-Pengambilan-Dataset.html

Prosedur Pengambilan Dataset

Halo Stupenss, sekarang kita akan mempelajari mengenai materi prosedur pengambilan dataset. Nah, sebelum itu kita harus mengetahui apa sih akuisisi data itu? Akuisisi data adalah sebuah sistem yang memiliki fungsi untuk mengambil, mengumpulkan dan menyiapkan data yang kemudian dapat diolah sehingga menghasilkan data yang diinginkan. Data yang diambil berdasarkan dari fenomena fisik maupun nonfisik. Data tersebut direkam dengan menggunakan sensor. Sensor tersebut bisa berupa kamera, audio ataupun sensor pengukuran. Nah, dari data sensor tersebut maka disimpan ke dalam suatu kumpulan data yang disebut database.

Data yang diambil harus memiliki keterhubungan dengan sistem yang kita ingin diproses. Jangan sampai kita mengambil data gambar tumbuhan melati padahal kita ingin memproses data gambar jerapah ya.

Gamba 1. Contoh kesalahan pengambilan data yang tidak sama

Data-data yang dikumpulkan tersebut dengan tujuan untuk digunakan dalam proses pengolahan tersebut dapat disebut dengan dataset. Hmm, pasti teman-teman langsung terpikir 2 kata lain yang mirip dengan dataset. yaa benar yaitu Data dan Database. Kira-kira apa ya perbedaan antara Dataset, Data dan Database?

       Dataset 🡪 Sekumpulan data yang disusun secara terstruktur

       Data 🡪 Sekeping informasi yang menampilkan nilai tertentu.

       Database 🡪 Tempat dari kumpulan data yang disimpan.

Jadi apabila kita analogikan pada proses pengumpulan data umur pegawai dengan menggunakan excel maka setiap angka umur siswa yang kamu masukkan ke excel adalah Data. Lalu, tabel yang kamu buat di excel adalah Dataset. Sedangkan tempat kamu menyimpan dan mengolah data yaitu Microsoft Excel adalah Database.

Nah karena teman-teman telah mengetahui apa itu dataset maka selanjutnya teman-teman akan mempelajari bagaimana sih cara atau prosedur dalam pengambilan dataset dan kira kira metode apa saja ya yang digunakan dalam proses pengambilan dataset ? Nah, mari kita lihat pada poin poin berikut ini :

  1. Menentukan Sumber Dataset

Sumber data dapat berasal dari berbagai media seperti publikasi ilmiah, situs, web, basis data atau sumber-sumber lainnya. Penentuan sumber data ini juga dapat didasarkan pada platform-platform online yang menyediakan dataset. Platform-platform ini biasanya menyediakan dataset secara gratis ataupun berbayar. Diantaranya yaitu Kaggle, Google Scholar atau dataset pemerintah.

 

Sumber dataset juga dapat diperoleh secara manual atau diambil dengan cara survei mandiri. Jadi teman-teman bisa memilih sumber dataset berdasarkan keperluan kamu ya smile

 

  1. Lakukan riset dalam penentuan jenis dataset

Dalam proses riset penentuan jenis dataset terdapat beberapa faktor yang mungkin dapat dijadikan acuan dalam proses penentuan dataset yaitu antara lain:

a.       Jenis data

Sebelum memilih sumber dataset maka terlebih dahulu melakukan riset mengenai jenis data apa yang ingin diolah. Apakah data tersebut berupa citra, audio, file excel ataupun hanya data nilai saja. Hal ini sangat penting karena akan sangat mempengaruhi terhadap pemrosesan sistem atau proses pengolahan data nya nanti.

b.      Keaslian dataset

Riset selanjutnya adalah pada keaslian dari datasetnya. Keaslian dataset dapat dilihat pada jenis sumbernya, apakah sumber tersebut memiliki hak cipta atau sumbernya terpercaya.

c.       Nilai data akhir yang diinginkan

Kemudian faktor penentuan lainnya yaitu pada nilai data akhir yang diinginkan. Misalnya kita ingin memprediksi waktu kebangkrutan suatu perusahaan maka faktor-faktor yang berhubungan dengan kebangkrutan perusahaan sebagai data pendukung seperti pemasukan perusahaan, penjualan produk, jumlah gaji karyawan dan lain-lain. Dengan begitu, maka diperlukan sebuah data tabel atau excel sebagai datasetnya agar proses pengolahan data menjadi lebih mudah.

d.      Jumlah data pada dataset

Selanjutnya dapat juga berfaktor pada dari besar jumlah datasetnya, biasanya dalam training data dibutuhkan jumlah minimal data agar model yang didapat nantinya memiliki nilai akurasi yang baik. Jumlah data juga mempengaruhi kecepatan proses dari sistemnya dimana semakin banyak jumlah data maka semakin lambat suatu sistem dapat mengolahnya.

e.       Jenis model training

Dan yang terakhir adalah pada jenis model yang kita inginkan dalam proses training, seringkali sebuah dataset tidak sesuai dengan model yang akan kita gunakan dalam proses trainingnya. Maka dari itu, teman-teman harus menyesuaikan jenis modelnya apakah diperlukan dataset yang memiliki label atau dataset mentah yang tidak memiliki label.

 

  1. Validasi dataset

Proses validasi dataset ini sangat penting dalam pengambilan dataset di bidang artificial intelligence agar dapat memastikan legalitas dan kualitas dataset yang digunakan. Ada beberapa cara nih Stupenss untuk dapat memeriksa apakah dataset yang teman-teman pilih itu valid dan bagus.

a.       Periksa Hak Cipta

Pastikan dataset yang akan digunakan bebas dari masalah hak cipta atau lisensi. Teman-teman dapat mencari platform sumber dataset yang terpercaya dan terkenal. Kemudian pastikan juga dataset tersebut memiliki izin penggunaan yang tepat. Lalu jika dataset bersifat open source maka pastikan bahwa lisensi penggunaannya sesuai dengan kebutuhan dan tujuan penggunaan.

b.      Cek kualitas data

Pengecekan kualitas data ini sangat penting dilakukan dalam proses pengembangan model AI. Teman-teman dapat memeriksa data yang berbeda (outlier), kesalahan data (error) dan juga kekosongan pada data (null). Dengan kualitas dataset yang baik maka proses pengolahan data akan semakin mudah dan hasil akhir model akan memiliki akurasi dan keandalan yang baik juga.

c.       Evaluasi dataset

Pada proses ini dataset dibagi menjadi 2 yaitu train set dan test set, hal ini bertujuan untuk memastikan bahwa dataset menghasilkan hasil yang konsisten dan akurat.

 

  1. Mengunduh dan menyiapkan dataset

Setelah mengetahui sumber dan jenis dataset yang diinginkan serta yakin bahwa dataset yang kalian mau tersebut valid atau memiliki kualitas dan keaslian yang baik maka teman-teman dapat masuk ke proses utama yaitu mengunduh dan menyiapkan dataset. Pada proses ini hanya dapat dilakukan apabila dataset berada di platform online seperti kaggle atau github. Nah kalian bisa mengunduh dataset tersebut secara manual dengan menekan tombol Download pada masing-masing platform, biasanya file yang terdownload itu berbentuk zip ataupun csv tergantung dengan jenis datasetnya. Akan tetapi, teman-teman juga dapat mengimport ke dalam workspace program kalian.

Ada beberapa cara untuk melakukan import dataset ke project program kalian yaitu seperti contoh berikut pada program python di google collab :

a.       Memakai perintah wget

[1] Seperti pada contoh diatas, dengan perintah wget maka teman-teman dapat mengimport langsung file dataset yang terdapat pada suatu media online.

 

 

b.      Import dari google drive

Pada import google drive ini, kita memakai drive[2]  sehingga dapat memanggil isi dari drive yang terhubung dengan akun google colab. Kemudian cari alamat folder yang berisi dataset pada drive kalian dan masukkan ke dalam baris program.

c.       Upload manual

Dataset yang teman-teman sudah unduh sebelumnya dimasukkan atau diupload ke dalam workspace google collab. Dengan cara menekan tombol upload pada menu bagian kiri ataupun juga dapat menggeser file dataset ke section kiri google colab.

d.      Memakai library pandas dengan membaca link url

[3] 

Pada proses ini, kita mengimport library pandas dan menggunakan perintah pd.read_csv() yang berisikan sebuah url dari dataset yang kita inginkan.

 

 

Last modified: Wednesday, 9 August 2023, 11:07 AM