Text Mining in Python
Dalam overview kali ini, kita akan melakukan beberapa proses dan metode pada pembuatan pola mining untuk mendapatkan sejumlah fitur dalam text. dengan beberapa proses linguistic yang digunkan untuk dilakukan modeling text terkait beberapa kasus.Berikut ini penjelasan, bagaimana pengaplikasinnya
Text Mining merupakan pengembangan baru dalam pengelolaan teks yang digunakan untuk dilakukan, dalam beberapa kasusu seperti menghapus kata-kata yang tidak terlalu signifikan diperlukan dan masih banyak lagi, berikut penjelasannya:
- Scale : Komputer secara keseluruhan sangat kurang kemampuannya untuk menginpretasikan sebuah makna atau arti dari sebuah kata. namun komputer dapat digunakan dalam skala yang tanpa batas. jika membaca banyak buku, banyak ribuan website, jutaan tweet maka kita kesusahan untuk membaca maupun mengambil bagian penting secara keseluruhan, maka dari itu perlu komputer mampu melakukan skala besar seperti itu.
- Re-contextualization : dengan text mining, kita dapat menggunakan beberapa text dan menggunakannya secara bersamaan & keseluruhan. Dengan begini kita bisa menggunakannya untuk memahami informasi yang didapat dari text maupun buku yang kita baca. maka dari itu, perlu kita breakdown untuk menciptakan komparasi maupun critical tools. yang dapat digunakan untuk berbagai pengetahuan seputar atribut apa saja yang digunakan untuk authorship secara anonimus atau pseudonymous writing.
- Summarization : dalam bentuk agregasi, ekstraksi dan visualisasi maupun pola yang diciptkana dari sebuah model berbagai fitur yang digunakan untuk dapat mengekstrak point-point yang terkandung dalam sebuah literatur maupun sebuah penulisan dari karya ilmiah.
Requirement apa saja yang diperlukan
dalam berbagai macam sumber. anda bisa membaca berbagai macam literatur yang diambil dari berbagai macam website maupun buku. Salah satunya, anda bisa membaca dari iteratur
- Art of Literary Text Analysis — Stefan Sinclair, 2015
- Introduction to Information Retrieval — Manning & Schutz, 2008
- Speech and Language Processing — 3rd edition, Dan Jurafsky & James H. Martin 2017
- Search Engines: Information Retrieval in Practice — Croft, Metzler & Strohman, 2009
Text Summarization
Text Summarization ini dengan Brown Corpus, secara garis besar Automatic Summarization adalah sebuah proses memampatkan sebuah document text dengan software. Bagaimana menyusun sebuah kesimpulan dengan mengambil point-point penting dari sebuah dokumen asli.
Teknologi ini dapat membuat sebuah kesimpulan yang koheren untuk mendapatkan variable akun untuk dibuat sebuah writing style dan & syntax.
Dengan proses machine learning didalamnya, kita dapat mencari sebuah subset data yang berisi informasi dari segala set yang ada. seperti teknik kebanyakan di industri sekarang, seperti search engine contohnya, atau summarization untuk dokumen, koleksi gambar dan video.
Dokumen summarization akan menciptkana sebuah representative summary atau abstrak di segala dokumen yang terkait, dengan mencari kalimat paling informatif, sedangkan untuk gambar mencari paling representatif dan paling penting. Untuk video mungkin bisa melihat dari fitur ekstrasi dari event-event yang relevan sekitar kita.
Ada 2 pendekatan yang menjadi bahasan summarization kita yaitu extraction dan abstraction. Extractive method digunakan untuk menseleksi sebuah subset dari kata yang sering muncul, frase atau kalimat di dalam sebuah original text.
lalu digunakan abstraksi metode untuk membuat internal semantic representation & digunakan pula natural language generation technique untuk mendapatkan kesimpulan yang mendekati sesuai dengan yang kita ekspetasikan.
Seperti layaknya sebuah inovasi dari sebuah kata-kata verbal. Riset ini mengacu pada extractive methods, dimana bisa diambil dari koleksi gambar maupun hasil video dari gambar.
di Jupyter Notebook ini, saya menggunakan algoritma textrank untuk mendapatkan extractive text summarization untuk diaplikasikan sesuai dengan algoritma pencarian.
Source Code
Untuk source code bisa dilihat pada gist dibawah ini:
library yang digunakan yaitu numpy, matplotlib serta beberapa komponen NLTK.
Selanjutnya menetukan sentence mana yang kita ambil dari corpus brown tersebut.
lalu kita gunakan fungsi ini, untuk cleaning text, memfilter sentence yang diperlukan saja.
melakukan proses algoritma ranking untuk menentukan sentence mana yang paling utama sesuai urutannya.
selanjutnya penggunaan fungsi cosine similarity untuk menentukan dari setiap sentence tersebut.
lalu lakukan proses adjency matrix berdasarkan kesamaan dari setiap sentence tersebut.
Debug proses diatas untuk menampilkan matriks array tersebut
Lalu kita proses sesuai dengan diranking sesuai dengan kalimat penting di letakkan di paling atas.
dilanjutkan dengan ranking sesuai dengan index
kemudian petakan sesuai dengan ranking-ranking yang didapatkan.
lalu kita buat plot rank untuk proses smooting
ambil nilai summary yang paling penting dari setiap sentence
Kita dapatkan hasil summary kita.
Begitulah, kira-kira salah satu contoh untuk menentukan summary dari sebuah dasar penggnaan text mining, terima kasih..
Referensi:
- Industry 4.0 : Emerging themes & future research avenue using a text mining approach
https://doi.org/10.1016/j.compind.2019.04.018 - Chapter 7 — Using Natural Language Tools in Forencis
https://doi.org/10.1016/B978-0-12-418676-7.00007-4 - A method for determining the number of ducuments needed for a gold standard corpus
https://doi.org/10.1016/j.jbi.2011.12.010