Implementasi Algoritma Symspell, TF-IDF Dan Cosine Similarity Untuk Pengecekan Ejaan Dan Deteksi Plagiarisme Pada Sistem Analisis Teks Berbasis Web

Authors

  • Muh. Ikbal Ikbal Universitas Haluoleo
  • Sutardi Sutardi Universitas Halu Oleo
  • Jumadil Nangi Universitas Halu Oleo

DOI:

https://doi.org/10.69693/ijmst.v4i2.9434

Keywords:

Cosine Similarity, Pengecekan Ejaan, Plagiarisme, Symspell, TF-IDF, Web

Abstract

Perkembangan teknologi digital telah memicu lonjakan signifikan dalam produksi karya tulis ilmiah, yang sekaligus memunculkan tantangan kompleks terkait pemeliharaan kualitas kebahasaan dan pencegahan pelanggaran integritas akademik. Selama ini, proses validasi naskah sering kali mengharuskan penulis menggunakan aplikasi yang terpisah untuk memperbaiki ejaan dan mengecek plagiarisme, sehingga alur kerja menjadi kurang efisien dan memakan banyak waktu. Oleh karena itu, penelitian ini bertujuan merancang dan mengembangkan sebuah sistem analisis teks terpadu berbasis web yang difungsikan untuk melakukan pengecekan ejaan bahasa Indonesia serta mendeteksi plagiarisme naskah secara bersamaan dalam satu platform tunggal. Pengembangan sistem ini menerapkan metode rekayasa perangkat lunak Rational Unified Process (RUP). Pada sistem terpadu ini, algoritma Symmetric Delete Spelling Correction (SymSpell) diimplementasikan untuk melakukan koreksi ejaan dengan kecepatan tinggi memanfaatkan kamus frekuensi yang berisi kurang lebih 59.000 kata baku bahasa Indonesia. Selanjutnya, fitur deteksi plagiarisme dikembangkan menggunakan metode pembobotan Term Frequency-Inverse Document Frequency (TF-IDF) yang dipadukan dengan algoritma Cosine similarity untuk mengkalkulasi tingkat kemiripan teks antar dokumen. Evaluasi performa sistem dilakukan menggunakan dataset dokumen jurnal ilmiah berbahasa Indonesia. Hasil pengujian menunjukkan bahwa pengintegrasian kedua fitur tersebut berjalan sangat efektif. Algoritma SymSpell menunjukkan performa yang sangat baik dengan tingkat akurasi koreksi ejaan mencapai 98%. Sementara itu, metode TF-IDF dan Cosine similarity mencetak hasil klasifikasi dokumen yang optimal dengan akurasi sebesar 98,3% pada pengujian dengan ambang batas kemiripan (threshold) 40%. Kehadiran sistem analisis teks terpadu ini diharapkan mampu memberikan kemudahan bagi akademisi dalam memvalidasi naskah secara mandiri dan mendukung peningkatan kualitas publikasi ilmiah.

References

Arianti, T., Fa’izi, A., Adam, S., dan Wulandari, M., 2022, Perancangan Sistem Informasi Perpustakaan Menggunakan Diagram UML (Unified Modelling Language), Jurnal Ilmiah Komputer Terapan dan Informasi, 1, 1, 19–25

Arkan, S., Sulistiono, H., & Setiadi, I. (2026). Perancangan Aplikasi Deteksi Plagiarisme Dengan Tf-Idf Dan Cosine Similarity. Jurnal Riset dan Aplikasi Mahasiswa Informatika (JRAMI), 07(02), 230–239.

Darmanto, D., Pradasari, N.I., dan Wahyudi, E., 2024, Sistem Deteksi Plagiarisme Tugas Akhir Mahasiswa Berbasis Natural Language Processing Menggunakan Algoritma Jaro-Winkler dan TF-IDF, Smart Comp: Jurnalnya Orang Pintar Komputer, 13, 1, 202–211.

Fauzi, R., Iqbal, M., dan Haryanti, T., 2022, Design and Implementation of a Final Project Plagiarism Detection System Using Cosine Similarity Method, IJAIT (International Journal of Applied Information Technology), 5, 2, 1–16.

Ferdiansyah, M. H., & Nuryana, I. K. D. (2023). Analisis Perbandingan Metode Burkhard Keller Tree dan SymSpell dalam Spell Correction Bahasa Indonesia. Journal of Informatics and Computer Science (JINACS), 4, 3, 305–313.

Gasim, I., 2025, Evaluating Hunspell, Symspell, Norvig, and N-Gram Spellcheckers for Azerbaijani Text, International Journal of Innovative Science and Research Technology, 10, 5, 2574–2577.

Halim, J., dan Lasut, D., 2024, Document Plagiarism Detection Application Using Web-Based TF-IDF and Cosine Similarity Methods, Bit-Tech (Binary Digital – Technology), 7, 2, 203–213.

Manning, C. D., Raghavan, P., & Schütze, H. (2009). Introduction to Information Retrieval. Cambridge University Press. (Online edi). https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf

Nangi, J., Asmara, I. B. G. P., Sarita, M. I., Jaya, L. M. G., Mokui, H. T., & Tajidun, L. M. (2024). Perbandingan Algoritma Winnowing dan Algoritma Rabin-Karp pada Aplikasi Pendeteksi Kesamaan Dokumen Skripsi. Jurnal Sistem Informasi Bisnis, 14, 2, 131–142.

Pawestri, S., & Suyanto, Y. (2024). Analisis Perbandingan Metode Similarity untuk Kemiripan Dokumen Bahasa Indonesia pada Deteksi Kemiripan Teks Bahasa Indonesia. Jurnal Media Informatika Budidarma, 8, 3, 1440–1450.

Septiani, D., & Isabela, I. (2022). Analisis term frequency inverse document frequency (tf-idf) dalam temu kembali informasi pada dokumen teks. Journal Sistem dan Teknologi Informasi Indonesia, 1, 2, 81–88.

Sari, L.P., 2023, Cosine Similarity-Based Plagiarism Detection on Electronic Documents, Journal of Computer Science Application and Engineering (JOSAPEN), 1, 2, 44–48.

Shafiera, E. (2022). Pengaruh penerapan spelling correction menggunakan metode symspell pada incident categorization. Skripsi. Teknik Informatika, Universitas Islam Negeri Syarif Hidayatullah, Jakarta.

Syam, A. A., M, G. H., Salim, A., Surianto, D. F., & B, M. F. (2024). Analisis teknik preprocessing pada sentimen masyarakat terkait konflik israel-palestina menggunakan support vector machine. Jurnal Ilmiah Penelitian dan Pembelajaran Informatika, 9, 3, 1464–1472.

Widianto, A., Pebriyanto, E., Fitriyanti, F., & Marna, M. (2024). Document Similarity Using Term Frequency-Inverse Document Frequency Representation and Cosine similarity. Journal of Dinda : Data Science, Information Technology, and Data Analytics, 4, 2, 149–153.

Downloads

Published

29-05-2026

How to Cite

Ikbal, M. I., Sutardi , S., & Nangi, J. (2026). Implementasi Algoritma Symspell, TF-IDF Dan Cosine Similarity Untuk Pengecekan Ejaan Dan Deteksi Plagiarisme Pada Sistem Analisis Teks Berbasis Web. Indonesian Journal of Multidisciplinary on Social and Technology, 4(2), 985–997. https://doi.org/10.69693/ijmst.v4i2.9434