Text Mining in Python

Rakha Asyrofi
4 min readJan 24, 2020

--

Dalam overview kali ini, kita akan melakukan beberapa proses dan metode pada pembuatan pola mining untuk mendapatkan sejumlah fitur dalam text. dengan beberapa proses linguistic yang digunkan untuk dilakukan modeling text terkait beberapa kasus.Berikut ini penjelasan, bagaimana pengaplikasinnya

Gambar 1. Tex Mining di Python

Text Mining merupakan pengembangan baru dalam pengelolaan teks yang digunakan untuk dilakukan, dalam beberapa kasusu seperti menghapus kata-kata yang tidak terlalu signifikan diperlukan dan masih banyak lagi, berikut penjelasannya:

  • Scale : Komputer secara keseluruhan sangat kurang kemampuannya untuk menginpretasikan sebuah makna atau arti dari sebuah kata. namun komputer dapat digunakan dalam skala yang tanpa batas. jika membaca banyak buku, banyak ribuan website, jutaan tweet maka kita kesusahan untuk membaca maupun mengambil bagian penting secara keseluruhan, maka dari itu perlu komputer mampu melakukan skala besar seperti itu.
  • Re-contextualization : dengan text mining, kita dapat menggunakan beberapa text dan menggunakannya secara bersamaan & keseluruhan. Dengan begini kita bisa menggunakannya untuk memahami informasi yang didapat dari text maupun buku yang kita baca. maka dari itu, perlu kita breakdown untuk menciptakan komparasi maupun critical tools. yang dapat digunakan untuk berbagai pengetahuan seputar atribut apa saja yang digunakan untuk authorship secara anonimus atau pseudonymous writing.
  • Summarization : dalam bentuk agregasi, ekstraksi dan visualisasi maupun pola yang diciptkana dari sebuah model berbagai fitur yang digunakan untuk dapat mengekstrak point-point yang terkandung dalam sebuah literatur maupun sebuah penulisan dari karya ilmiah.

Requirement apa saja yang diperlukan

dalam berbagai macam sumber. anda bisa membaca berbagai macam literatur yang diambil dari berbagai macam website maupun buku. Salah satunya, anda bisa membaca dari iteratur

  • Art of Literary Text Analysis — Stefan Sinclair, 2015
  • Introduction to Information Retrieval — Manning & Schutz, 2008
  • Speech and Language Processing — 3rd edition, Dan Jurafsky & James H. Martin 2017
  • Search Engines: Information Retrieval in Practice — Croft, Metzler & Strohman, 2009

Text Summarization

Text Summarization ini dengan Brown Corpus, secara garis besar Automatic Summarization adalah sebuah proses memampatkan sebuah document text dengan software. Bagaimana menyusun sebuah kesimpulan dengan mengambil point-point penting dari sebuah dokumen asli.

Teknologi ini dapat membuat sebuah kesimpulan yang koheren untuk mendapatkan variable akun untuk dibuat sebuah writing style dan & syntax.

Dengan proses machine learning didalamnya, kita dapat mencari sebuah subset data yang berisi informasi dari segala set yang ada. seperti teknik kebanyakan di industri sekarang, seperti search engine contohnya, atau summarization untuk dokumen, koleksi gambar dan video.

Dokumen summarization akan menciptkana sebuah representative summary atau abstrak di segala dokumen yang terkait, dengan mencari kalimat paling informatif, sedangkan untuk gambar mencari paling representatif dan paling penting. Untuk video mungkin bisa melihat dari fitur ekstrasi dari event-event yang relevan sekitar kita.

Ada 2 pendekatan yang menjadi bahasan summarization kita yaitu extraction dan abstraction. Extractive method digunakan untuk menseleksi sebuah subset dari kata yang sering muncul, frase atau kalimat di dalam sebuah original text.

lalu digunakan abstraksi metode untuk membuat internal semantic representation & digunakan pula natural language generation technique untuk mendapatkan kesimpulan yang mendekati sesuai dengan yang kita ekspetasikan.

Seperti layaknya sebuah inovasi dari sebuah kata-kata verbal. Riset ini mengacu pada extractive methods, dimana bisa diambil dari koleksi gambar maupun hasil video dari gambar.

di Jupyter Notebook ini, saya menggunakan algoritma textrank untuk mendapatkan extractive text summarization untuk diaplikasikan sesuai dengan algoritma pencarian.

Source Code

Untuk source code bisa dilihat pada gist dibawah ini:

library yang digunakan yaitu numpy, matplotlib serta beberapa komponen NLTK.

Gambar 1. Library Text Summarization

Selanjutnya menetukan sentence mana yang kita ambil dari corpus brown tersebut.

Gambar 2. Memntukan sentence mana yang mau kita gunakan

lalu kita gunakan fungsi ini, untuk cleaning text, memfilter sentence yang diperlukan saja.

Gambar 3. Cleaning text

melakukan proses algoritma ranking untuk menentukan sentence mana yang paling utama sesuai urutannya.

Gambar 4. Page Rank Algorithm

selanjutnya penggunaan fungsi cosine similarity untuk menentukan dari setiap sentence tersebut.

Gambar 5. Sentence Similarity

lalu lakukan proses adjency matrix berdasarkan kesamaan dari setiap sentence tersebut.

Gambar 6. adjency matrix similarity

Debug proses diatas untuk menampilkan matriks array tersebut

Gambar 7. Building Similarity

Lalu kita proses sesuai dengan diranking sesuai dengan kalimat penting di letakkan di paling atas.

Gambar 8. Sentence Ranking

dilanjutkan dengan ranking sesuai dengan index

Gambar 9. Index Ranking

kemudian petakan sesuai dengan ranking-ranking yang didapatkan.

Gambar 10. Plot Rank 1

lalu kita buat plot rank untuk proses smooting

Gambar 11. Plot Rank 2

ambil nilai summary yang paling penting dari setiap sentence

Gambar 12. Summary 5 paling penting

Kita dapatkan hasil summary kita.

Gambar 13. Generasi hasil kesimpulannya

Begitulah, kira-kira salah satu contoh untuk menentukan summary dari sebuah dasar penggnaan text mining, terima kasih..

Referensi:

--

--

No responses yet