PENCARIAN BERITA BAHASA INDONESIA MENGGUNAKAN METODE GENERALIZED VECTOR SPACE MODEL (GVSM)

Syaiful Huda, Joan Santoso

Abstract


Berita bisa dating atau diperoleh dari mana saja, semisal dari teman, guru, atau media elektronik seperti mesinpencari. Salah satu metode yang dapat digunakan untuk membangun mesin pencari adalah Vector Space Model (VSM). Masalah yang muncul adalah terdapat dokumen yang tidak ditemukan padahal mengandung istilah yang berkaitan dengan query. Berdasarkan permasalahan ini diperlukannya sebuah metode yang lebih menyeluruh dalam melakukan pencarian yang tidak hanya terpaku pada ada tidaknya suatu istilah di dalam dokumen. Untuk itu dipilihlah metode GVSM yang diharapkan mampu mengatasi masalah tersebut. Metode Generalized Vector Space Model (GVSM) adalah pengembangan dari VSM yang menambahkan hubungan antar istilah (Semantic Relatedness) dalam melakukan penghitungan kesamaan antara vektor query dengan vektor dokumen. Denganmemperhitungkan relasi antar istilah maka pencarian sebuah dokumen akan lebih luas. Berdasarkan hasil uji coba yang telah dilakukan maka dapat disimpulkan bahwa penerapan metode GVSM belum mampu meningkatkan hasil pencarian berita Bahasa Indonesia dibandingkan dengan metode VSM. Dikarenakan penerapan metode GVSM pada sistem hanya mampu meningkatkan recall dan accuracy saja dengan persentase peningkatan masing-masing sebesar 30% dan 0.16%. Sedangkan precision memiliki nilai yang lebih rendah 11,17% dari pada metode VSM.


Keywords


Berita, Generalized Vector Space Model, Pencarian, Semantic Relatedness.

References


Amin, Fatkhul, (2012). “Sistem Temu Kembali Informasi dengan Metode Vector Space Mod-el”.Jurnal Sistem Informasi Bisnis 02 (2012).

Anonymous, “A First Take at Building an Inverted Index”, https://nlp.stanford.edu/IR-book/html/htmledition/a-first-take-at-building-an-inverted-index-1.html, diakses 13 November 2020.

Anonymous, “Apache Lucene”, https://lucene. apache.org, diakses 4 Agustus 2020.

Anonymous, “Apache Lucene - Wikipedia”, https://en.wikipedia.org/wiki/Apache_Lucene, diakses 4 Agustus 2020.

Anonymous, “Boolean Retrieval”, https://nlp. stanford.edu/IR-book/pdf/01bool.pdf, diakses 13 November 2020.

Anonymous, “Colophon”, https://jsoup.org/ colophon, diakses 15 Agustus 2020.

Anonymous, “Dot Product”, https://nlp. stan-ford.edu/IR-book/html/htmledition/dot-products-1.html, diakses 14 November 2020.

Anonymous, “Inverse Document Frequency”, https://nlp.stanford.edu/IR-book/html/ htmledi-tion/inverse-document-frequency-1.html, diakses 14 November 2020.

Anonymous, “Jsoup”, https://jsoup.org, diakses 15 Agustus 2020.

Anonymous, “Kateglo”, http://kateglo.com/ ?mod=doc&doc=README.txt, diakses November 2017.

Anonymous, “Kateglo – Onno Center Wiki”, https://lms.onnocenter.or.id/wiki/index.php/Kateglo, diakses November 2017.

Anonymous, “Kateglo - Tempo”, https://tekno.tempo.co/read/181924/kateglo-situs-pertama-penyatu-kamus-dan-tesaurus, diakses November 2017.

Anonymous, “Search Engine Indexing”, https://en.wikipedia.org/wiki/Search_engine_indexing, diakses 15 November 2020.

Anonymous, “Text Preprocessing”, https://www.codecademy.com/learn/natural-language-processing/modules/nlp-text-preprocessing, diakses 13 November 2020.

Anonymous, “Term Frecuency and Weighting”, https://nlp.stanford.edu/IR-book/html/htmledition/term-frequency-and-weighting-1.html, diakses 14 November 2020.

Anonymous, “TF-IDF Weighting”, https://nlp.stanford.edu/IR-book/html/htmledition/tf-idf-weighting-1.html, diakses 14 November 2020.

Birger Hjorland, (2018). “Indexing: Concepts and Theory”, Knowl. Org. 45 (2018) No.7.

Hidayat Huang, “Metode Penelitian Kuantitatif”, http://www.globalstatistik.com /metode-penelitian-kuantitatif, diakses 18 Desember 2017.

Kemdikbud, “KBBI Daring Informasi”, https://kbbi.kemdikbud.go.id/entri/informasi, di-akses November 2017.

Kemdikbud, “KBBI Daring Siswa”, https://kbbi.kemdikbud.go.id/entri/siswa, diakses November 2017.

Kemdikbud, “KBBI Daring Informasi”, https://kbbi.kemdikbud.go.id/entri/informasi, di-akses November 2017.

Ajit Kumar Mahapatra dan Sitanath Biswas, (2011). “Inverted indexes: Types and techniques”, IJCSI International Journal of Computer Science Issues, Vol. 8, Issue 4, No 1, July 2011.

Christof Muller, dan Iryna Gurevych, (2009). “A Study on the Semantic Relatedness of Query and Document Terms in Information Retrieval”, Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.

Ahmad M Odat, (2015). “Similarity Measurements of Vector Space Model on Arabic Text”. Research Journal of Applied Sciences, Engineering and Technology 11(8): 860 864, 2015.

Reda Siblini, dan Leila Kosseim, (2013). “Using a Weighted Semantic Network for Lexical Semantic Relatedness”. Proceedings of Recent Advances in Natural Language Processing.

George Tsatsaronis dan Vicky Panagiotopoulou, (2009). “Generalized Vector Space Model for Text Retrieval Based on Semantic Relatedness”. EACL Student Research Workshop.




DOI: http://dx.doi.org/10.36564/njca.v5i2.204

Refbacks

  • There are currently no refbacks.


Copyright (c) 2020 Syaiful Huda, Joan Santoso


Creative Commons License
 
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

NJCA(Nusantara Journal of Computers and Its Applications)
Published by Computer Society of Nahdlatul Ulama, Indonesia.