Pengambilan dataset teks
Halo sobat AI[1] , pada section kali ini kita akan mempelajari lanjutan materi dari akuisisi data yaitu materi pengambilan dataset teks. Pasti penasaran kan apa sih dataset teks tuh dan cara mengambilnya itu sama tidak dengan dataset-dataset sebelumnya? tanpa berlama-lama lagi yuk mari kita mulai.
Dataset teks adalah kumpulan data yang terdiri dari teks atau kalimat-kalimat yang diambil dari berbagai sumber seperti dokumen, artikel, tweet, blog dan media kepenulisan lainnya. Dataset teks ini sering digunakan dalam machine learning dan natural language processing (NLP) untuk melatih model untuk melakukan tugas-tugas seperti klasifikasi teks, statement analysis, penterjemahan mesin dan lain sebagainya. Mungkin dari kalian masih belum tahu apa itu NLP ? NLP adalah cabang dari kecerdasan buatan yang berhubungan dengan interaksi antara komputer dan manusia menggunakan bahasa alami, jadi intinya NLP adalah kemampuan program komputer untuk memahami bahasa manusia baik yang diucapkan atau ditulis. Naah NLP ini juga akan sering kita sebut pada materi ini jadi ingat-ingat terus yaa!
Sama seperti jenis dataset lainnya, dataset teks juga dilengkapi dengan label yang bertujuan untuk menunjukan kategori atau kelas dari masing-masing teks atau kalimat tersebut. Setiap dataset teks biasanya terdiri dari banyak dokumen dimana berisi teks dan kalimat yang mewakili sebuah topik atau subjek tertentu. Dataset teks yang bervariasi dan berjumlah banyak sangat penting dalam membangun model yang akurat dan dapat diandalkan dalam melakukan tugas-tugas NLP. Berikut merupakan contoh dari penerapan teknologi pendeteksian teks berbasis citra :
Gambar 1. Pendeteksi teks berbasis citra
Data-data pada dataset teks ini memiliki jenis nya sendiri berdasarkan dari fungsi yang digunakan untuk pengolahan teks. Berikut ini adalah beberapa jenis data yang dapat ditemukan pada dataset teks:
Data teks dapat berupa sekumpulan dokumen yang diambil dari berbagai sumber seperti artikel, surat kabar, buku, atau website.
Dataset teks juga dapat berupa kumpulan kalimat yang diambil dari berbagai sumber seperti tweet, caption, atau percakapan.
Data teks dapat dipecah menjadi unit-unit terkecil seperti kata, sehingga setiap kata dalam dataset diperlakukan sebagai entitas terpisah.
Data teks dapat dipecah menjadi unit terkecil yaitu karakter yang digunakan pada teks.
Dataset teks dapat dilengkapi dengan label yang menunjukkan kategori atau kelas dari setiap dokumen atau kalimat, seperti positif atau negatif untuk analisis sentimen, atau kategori topik tertentu.
Dataset teks juga dapat berupa metadata seperti tanggal, waktu, atau lokasi di mana teks tersebut dibuat.
Setelah mengetahui jenis data pada dataset teks maka selanjutnya kita akan mempelajari fitur-fitur apa saja yang ada pada suatu data teks. Pada sistem AI, pemrosesan data dilakukan dengan mengekstrak setiap fitur-fitur yang terdapat pada data tersebut sehingga setiap datanya dapat diketahui perbedaannya dan keunikannya. Hal tersebut juga berlaku pada dataset teks. Berikut terdapat beberapa fitur yang terdapat pada data teks :
● Kata-kata:
Dataset teks terdiri dari kumpulan kata-kata. Oleh karena itu, salah satu fitur utama pada dataset teks adalah mengidentifikasi kata-kata tersebut. Ini dapat dilakukan dengan menggunakan teknik seperti tokenization dan stemming.
● Frekuensi Kata
Fitur lain dari dataset teks adalah frekuensi kata. Ini adalah jumlah kemunculan setiap kata dalam dataset. Frekuensi kata dapat digunakan untuk mengidentifikasi kata-kata yang paling umum atau paling penting dalam dataset.
● Bigram dan Trigram
Selain kata tunggal, dataset teks juga dapat terdiri dari bigram atau trigram. Bigram adalah pasangan kata yang bersebelahan, sedangkan trigram adalah tiga kata yang bersebelahan. Bigram dan trigram dapat memberikan informasi tambahan tentang hubungan antara kata-kata dalam dataset.
● Kategori
Dataset teks dapat dikategorikan ke dalam kategori yang berbeda. Kategori dapat didefinisikan berdasarkan topik atau jenis dokumen. Kategori dapat digunakan untuk membangun model klasifikasi.
● Sentimen
Sentimen adalah emosi atau perasaan yang terkait dengan dokumen atau teks. Fitur sentimen pada dataset teks dapat digunakan untuk membangun model analisis sentimen.
● Bahasa
Fitur lain dari dataset teks adalah bahasa. Bahasa dapat digunakan untuk membangun model multibahasa atau model yang dioptimalkan untuk bahasa tertentu.
Dalam sistem AI khususnya NLP, dataset teks yang memiliki kualitas dan keaslian yang baik itu sangat penting untuk diperoleh saat kita ingin membangun model AI kita sendiri. Nah bagaimana cara mendapatkan dataset teks dengan kualitas yang baik tersebut ? Sobat AI bisa mengetahuinya dengan membaca section di bawah ini ya
Mencari dataset yang sudah tersedia secara online
Agar mempermudah dalam membangun model AI anda, pencarian dataset dapat dilakukan pada internet atau secara online. Berikut beberapa platform atau website yang menyediakan dataset teks secara online yaitu antara lain :
● Kaggle
Kaggle adalah platform kompetisi data science yang menyediakan berbagai macam dataset teks dari berbagai topik. Kaggle juga memiliki komunitas aktif yang dapat membantu dalam mengatasi masalah dan memperoleh wawasan baru tentang dataset.
● UCI Machine Learning Repository
UCI Machine Learning Repository adalah repository dataset machine learning yang terkenal. Repository ini juga menyediakan beberapa dataset teks seperti spam email, berita, dan review produk.
● Open Data
Beberapa pemerintahan atau organisasi swasta menyediakan dataset teks secara terbuka. Contohnya adalah dataset teks dari Wikipedia, BBC, Twitter, dan lainnya.
● Google Dataset Search
Google Dataset Search adalah mesin pencari yang mengindeks dataset yang tersedia secara terbuka di internet. Anda dapat mencari dataset teks dari sumber yang berbeda dengan menggunakan Google Dataset Search.
● Research Papers
Beberapa penelitian dan artikel ilmiah juga menyediakan dataset teks yang digunakan dalam penelitian tersebut. Anda dapat menemukan dataset ini melalui referensi yang tertera di penelitian atau artikel ilmiah tersebut.
Mengambil data teks sendiri:[3]
Sama seperti pengambilan dataset image dan audio, pengambilan dataset teks sendiri ini dilakukan apabila dataset yang diinginkan tidak tersedia di internet ataupun sobat AI ingin suatu dataset yang originalitasnya milik sendiri. Proses pengambilan teks ini dapat dilakukan dengan beberapa cara berikut ini :
● Web Scraping
Sobat AI dapat mengambil data teks dari website dengan menggunakan teknik web scraping. Teknik ini melibatkan pengambilan data dari halaman web dan pengelompokannya dalam format tertentu. Namun, pastikan bahwa pengambilan data dari website tersebut tidak melanggar hak cipta atau kebijakan privasi.
● Survei Online
Sobat AI juga dapat membuat survey online dan mengumpulkan data teks dari partisipan. Survei ini dapat berupa pertanyaan terbuka yang meminta partisipasi untuk memberikan jawaban teks.
● Pengumpulan manual
Kemudian pengumpulan data teks dapat dilakukan secara manual dengan cara membuat dokumen atau meminta partisipan untuk memberikan jawaban tertulis atas pertanyaan tertentu.
● Sumber Teks Terbuka
Mencari sumber teks terbuka seperti dokumen akademik, buku-buku, atau artikel di internet. Namun, pastikan bahwa penggunaan data tersebut tidak melanggar hak cipta.
Okey, sekian untuk materi mengenai proses pengambilan dataset teks secara manual, sobat AI dapat ikuti ya semangat...
Preprocessing data teks
Preprocessing dataset teks memiliki proses untuk mengubah dan meningkatkan data teks mentah menjadi data yang lebih siap untuk masuk ke proses pengolahan. Preprocessing data teks dilakukan agar proses pengolahan data dengan model AI dapat dilakukan dengan lebih mudah.. Preprocessing dataset teks umumnya dilakukan dengan serangkaian metode perubahan dan modifikasi karakter dan fitur pada data teks. Berikut beberapa langkah umum untuk melakukan pra pemrosesan dataset teks :
Tahap pertama dalam preprocessing data teks adalah tokenisasi. Tokenisasi ini adalah proses memecah teks menjadi unit-unit yang lebih kecil seperti kata-kata, frasa, atau karakter. Unit-unit ini disebut dengan token dan dianggap sebagai dasar dalam memproses teks.
● Stop Word Removal
Stop word adalah kata-kata yang umum dan sering muncul dalam bahasa tertentu, namun tidak memiliki arti yang signifikan dalam konteks analisis. Contohnya adalah kata-kata seperti "dan", "atau", atau "yang". Stop word removal[4] adalah proses menghapus stop word dari dataset teks agar tidak mempengaruhi analisis atau pengembangan model.
● Stemming atau Lemmatization
Stemming dan lemmatization adalah teknik untuk mengubah kata-kata dalam bentuk yang sama ke dalam bentuk dasar. Stemming menghilangkan akhiran kata untuk mengubah kata-kata menjadi bentuk dasar, sedangkan lemmatization menggunakan kamus kata-kata untuk mengubah kata-kata menjadi bentuk dasar yang lebih tepat.
● Normalisasi
Normalisasi adalah proses mengubah kata-kata yang ejaannya berbeda tetapi memiliki arti yang sama menjadi bentuk yang sama. Contohnya adalah kata-kata seperti "color" dan "colour" dalam bahasa Inggris.
● Konversi Huruf
Konversi huruf adalah proses mengubah semua huruf dalam dataset menjadi huruf kecil atau huruf besar agar tidak terjadi perbedaan antara kata-kata yang sama tetapi ditulis dengan huruf kapital atau kecil.
● Hapus Tanda Baca
Tanda baca seperti titik, koma, dan tanda tanya dapat mempengaruhi analisis atau pengembangan model. Oleh karena itu, tahap preprocessing data teks berikutnya adalah menghapus tanda baca dari dataset teks.
● Encoding
Encoding adalah proses mengubah teks menjadi format yang dapat diproses oleh mesin seperti angka atau vektor[5]
Proses preprocessing dataset teks ini sangat penting dilakukan agar dapat memastikan sebuah dataset teks memiliki kualitas dan akurasi analisis yang memadai dalam pengembangan model AI.
Nah dari penjelasan tersebut maka manfaat yang dapat diambil dari proses pengambilan dataset teks ini adalah sebagai berikut :
● Membuat database dari dataset teks untuk model AI Anda
● Dapat menerapkan teknologi Pengenalan teks berbasis gambar untuk mengotomatiskan ekstraksi data tertulis
● Meningkatkan penelitian dan kemampuan membangun bukti dari sistem cerdas
Dengan begitu, sobat AI dapat mempelajari kelanjutan dari setiap materi yang telah dibawakan serta mengaplikasikannya pada model AI yang sobat AI buat sendiri nanti