Skip to main content

4. Pengambilan-Dataset-Teks.html

Pengambilan dataset teks

Halo sobat AI[1] , pada section kali ini kita akan mempelajari lanjutan materi dari akuisisi data yaitu materi pengambilan dataset teks. Pasti penasaran kan apa sih dataset teks tuh dan cara mengambilnya itu sama tidak dengan dataset-dataset sebelumnya? tanpa berlama-lama lagi yuk mari kita mulai.

Dataset teks adalah kumpulan data yang terdiri dari teks atau kalimat-kalimat yang diambil dari berbagai sumber seperti dokumen, artikel, tweet, blog dan media kepenulisan lainnya. Dataset teks ini sering digunakan dalam machine learning dan natural language processing (NLP) untuk melatih model untuk melakukan tugas-tugas seperti klasifikasi teks, statement analysis, penterjemahan mesin dan lain sebagainya. Mungkin dari kalian masih belum tahu apa itu NLP ? NLP adalah cabang dari kecerdasan buatan yang berhubungan dengan interaksi antara komputer dan manusia menggunakan bahasa alami, jadi intinya NLP adalah kemampuan program komputer untuk memahami bahasa manusia baik yang diucapkan atau ditulis. Naah NLP ini juga akan sering kita sebut pada materi ini jadi ingat-ingat terus yaa!

[2] 

Sama seperti jenis dataset lainnya, dataset teks juga dilengkapi dengan label yang bertujuan untuk menunjukan kategori atau kelas dari masing-masing teks atau kalimat tersebut. Setiap dataset teks biasanya terdiri dari banyak dokumen dimana berisi teks dan kalimat yang mewakili sebuah topik atau subjek tertentu. Dataset teks yang bervariasi dan berjumlah banyak sangat penting dalam membangun model yang akurat dan dapat diandalkan dalam melakukan tugas-tugas NLP. Berikut merupakan contoh dari penerapan teknologi pendeteksian teks berbasis citra :

Gambar 1. Pendeteksi teks berbasis citra

Data-data pada dataset teks ini memiliki jenis nya sendiri berdasarkan dari fungsi yang digunakan untuk pengolahan teks. Berikut ini adalah beberapa jenis data yang dapat ditemukan pada dataset teks:

  1. Dokumen

Data teks dapat berupa sekumpulan dokumen yang diambil dari berbagai sumber seperti artikel, surat kabar, buku, atau website.

  1. Kalimat

Dataset teks juga dapat berupa kumpulan kalimat yang diambil dari berbagai sumber seperti tweet, caption, atau percakapan.

  1. Kata

Data teks dapat dipecah menjadi unit-unit terkecil seperti kata, sehingga setiap kata dalam dataset diperlakukan sebagai entitas terpisah.

  1. Karakter

Data teks dapat dipecah menjadi unit terkecil yaitu karakter yang digunakan pada teks.

  1. Label

Dataset teks dapat dilengkapi dengan label yang menunjukkan kategori atau kelas dari setiap dokumen atau kalimat, seperti positif atau negatif untuk analisis sentimen, atau kategori topik tertentu.

  1. Metadata

Dataset teks juga dapat berupa metadata seperti tanggal, waktu, atau lokasi di mana teks tersebut dibuat.

 

Setelah mengetahui jenis data pada dataset teks maka selanjutnya kita akan mempelajari fitur-fitur apa saja yang ada pada suatu data teks. Pada sistem AI, pemrosesan data dilakukan dengan mengekstrak setiap fitur-fitur yang terdapat pada data tersebut sehingga setiap datanya dapat diketahui perbedaannya dan keunikannya. Hal tersebut juga berlaku pada dataset teks. Berikut terdapat beberapa fitur yang terdapat pada data teks :

       Kata-kata:

Dataset teks terdiri dari kumpulan kata-kata. Oleh karena itu, salah satu fitur utama pada dataset teks adalah mengidentifikasi kata-kata tersebut. Ini dapat dilakukan dengan menggunakan teknik seperti tokenization dan stemming.

       Frekuensi Kata

Fitur lain dari dataset teks adalah frekuensi kata. Ini adalah jumlah kemunculan setiap kata dalam dataset. Frekuensi kata dapat digunakan untuk mengidentifikasi kata-kata yang paling umum atau paling penting dalam dataset.

       Bigram dan Trigram

Selain kata tunggal, dataset teks juga dapat terdiri dari bigram atau trigram. Bigram adalah pasangan kata yang bersebelahan, sedangkan trigram adalah tiga kata yang bersebelahan. Bigram dan trigram dapat memberikan informasi tambahan tentang hubungan antara kata-kata dalam dataset.

       Kategori

Dataset teks dapat dikategorikan ke dalam kategori yang berbeda. Kategori dapat didefinisikan berdasarkan topik atau jenis dokumen. Kategori dapat digunakan untuk membangun model klasifikasi.

       Sentimen

Sentimen adalah emosi atau perasaan yang terkait dengan dokumen atau teks. Fitur sentimen pada dataset teks dapat digunakan untuk membangun model analisis sentimen.

       Bahasa

Fitur lain dari dataset teks adalah bahasa. Bahasa dapat digunakan untuk membangun model multibahasa atau model yang dioptimalkan untuk bahasa tertentu.

Dalam sistem AI khususnya NLP, dataset teks yang memiliki kualitas dan keaslian yang baik itu sangat penting untuk diperoleh saat kita ingin membangun model AI kita sendiri. Nah bagaimana cara mendapatkan dataset teks dengan kualitas yang baik tersebut ? Sobat AI bisa mengetahuinya dengan membaca section di bawah ini ya

 

Mencari dataset yang sudah tersedia secara online

Agar mempermudah dalam membangun model AI anda, pencarian dataset dapat dilakukan pada internet atau secara online. Berikut beberapa platform atau website yang menyediakan dataset teks secara online yaitu antara lain :

       Kaggle

Kaggle adalah platform kompetisi data science yang menyediakan berbagai macam dataset teks dari berbagai topik. Kaggle juga memiliki komunitas aktif yang dapat membantu dalam mengatasi masalah dan memperoleh wawasan baru tentang dataset.

       UCI Machine Learning Repository

UCI Machine Learning Repository adalah repository dataset machine learning yang terkenal. Repository ini juga menyediakan beberapa dataset teks seperti spam email, berita, dan review produk.

       Open Data

Beberapa pemerintahan atau organisasi swasta menyediakan dataset teks secara terbuka. Contohnya adalah dataset teks dari Wikipedia, BBC, Twitter, dan lainnya.

       Google Dataset Search

Google Dataset Search adalah mesin pencari yang mengindeks dataset yang tersedia secara terbuka di internet. Anda dapat mencari dataset teks dari sumber yang berbeda dengan menggunakan Google Dataset Search.

       Research Papers

Beberapa penelitian dan artikel ilmiah juga menyediakan dataset teks yang digunakan dalam penelitian tersebut. Anda dapat menemukan dataset ini melalui referensi yang tertera di penelitian atau artikel ilmiah tersebut.

 

Mengambil data teks sendiri:[3] 

Sama seperti pengambilan dataset image dan audio, pengambilan dataset teks sendiri ini dilakukan apabila dataset yang diinginkan tidak tersedia di internet ataupun sobat AI ingin suatu dataset yang originalitasnya milik sendiri. Proses pengambilan teks ini dapat dilakukan dengan beberapa cara berikut ini :

       Web Scraping

Sobat AI dapat mengambil data teks dari website dengan menggunakan teknik web scraping. Teknik ini melibatkan pengambilan data dari halaman web dan pengelompokannya dalam format tertentu. Namun, pastikan bahwa pengambilan data dari website tersebut tidak melanggar hak cipta atau kebijakan privasi.

       Survei Online

Sobat AI juga dapat membuat survey online dan mengumpulkan data teks dari partisipan. Survei ini dapat berupa pertanyaan terbuka yang meminta partisipasi untuk memberikan jawaban teks.

       Pengumpulan manual

Kemudian pengumpulan data teks dapat dilakukan secara manual dengan cara membuat dokumen atau meminta partisipan untuk memberikan jawaban tertulis atas pertanyaan tertentu.

       Sumber Teks Terbuka

Mencari sumber teks terbuka seperti dokumen akademik, buku-buku, atau artikel di internet. Namun, pastikan bahwa penggunaan data tersebut tidak melanggar hak cipta.

Okey, sekian untuk materi mengenai proses pengambilan dataset teks secara manual, sobat AI dapat ikuti ya semangat...

Preprocessing data teks

Preprocessing dataset teks memiliki proses untuk mengubah dan meningkatkan data teks mentah menjadi data yang lebih siap untuk masuk ke proses pengolahan. Preprocessing data teks dilakukan agar proses pengolahan data dengan model AI dapat dilakukan dengan lebih mudah.. Preprocessing dataset teks umumnya dilakukan dengan serangkaian metode perubahan dan modifikasi karakter dan fitur pada data teks. Berikut beberapa langkah umum untuk melakukan pra pemrosesan dataset teks :

       Tokenisasi:

Tahap pertama dalam preprocessing data teks adalah tokenisasi. Tokenisasi ini adalah proses memecah teks menjadi unit-unit yang lebih kecil seperti kata-kata, frasa, atau karakter. Unit-unit ini disebut dengan token dan dianggap sebagai dasar dalam memproses teks.

       Stop Word Removal

Stop word adalah kata-kata yang umum dan sering muncul dalam bahasa tertentu, namun tidak memiliki arti yang signifikan dalam konteks analisis. Contohnya adalah kata-kata seperti "dan", "atau", atau "yang". Stop word removal[4]  adalah proses menghapus stop word dari dataset teks agar tidak mempengaruhi analisis atau pengembangan model.

       Stemming atau Lemmatization

Stemming dan lemmatization adalah teknik untuk mengubah kata-kata dalam bentuk yang sama ke dalam bentuk dasar. Stemming menghilangkan akhiran kata untuk mengubah kata-kata menjadi bentuk dasar, sedangkan lemmatization menggunakan kamus kata-kata untuk mengubah kata-kata menjadi bentuk dasar yang lebih tepat.

       Normalisasi

Normalisasi adalah proses mengubah kata-kata yang ejaannya berbeda tetapi memiliki arti yang sama menjadi bentuk yang sama. Contohnya adalah kata-kata seperti "color" dan "colour" dalam bahasa Inggris.

       Konversi Huruf

Konversi huruf adalah proses mengubah semua huruf dalam dataset menjadi huruf kecil atau huruf besar agar tidak terjadi perbedaan antara kata-kata yang sama tetapi ditulis dengan huruf kapital atau kecil.

       Hapus Tanda Baca

Tanda baca seperti titik, koma, dan tanda tanya dapat mempengaruhi analisis atau pengembangan model. Oleh karena itu, tahap preprocessing data teks berikutnya adalah menghapus tanda baca dari dataset teks.

 

       Encoding

Encoding adalah proses mengubah teks menjadi format yang dapat diproses oleh mesin seperti angka atau vektor[5] 

Proses preprocessing dataset teks ini sangat penting dilakukan agar dapat memastikan sebuah dataset teks memiliki kualitas dan akurasi analisis yang memadai dalam pengembangan model AI.

Nah dari penjelasan tersebut maka manfaat yang dapat diambil dari proses pengambilan dataset teks ini adalah sebagai berikut :

       Membuat database dari dataset teks untuk model AI Anda

       Dapat menerapkan teknologi Pengenalan teks berbasis gambar untuk mengotomatiskan ekstraksi data tertulis

       Meningkatkan penelitian dan kemampuan membangun bukti dari sistem cerdas

Dengan begitu, sobat AI dapat mempelajari kelanjutan dari setiap materi yang telah dibawakan serta mengaplikasikannya pada model AI yang sobat AI buat sendiri nanti


Last modified: Wednesday, 9 August 2023, 11:12 AM