Optimalisasi Preprocessing Data Menggunakan Pendekatan CRISP-DM untuk Meningkatkan Kualitas Klasifikasi Penyakit Jantung

Authors

  • Wahyu Nursahid STMIK YMI TEGAL
  • Bangkit Indarmawan Nugroho STMIK YMI Tegal
  • Syefudin Syefudin STMIK YMI Tegal

DOI:

https://doi.org/10.31004/riggs.v4i3.2514

Keywords:

Preprocessing, CRISP-DM, Klasifikasi, KNN, Penyakit Jantung

Abstract

Penyakit jantung masih menjadi penyebab kematian utama di dunia sehingga deteksi dini berbasis data medis menjadi sangat penting. Penelitian ini menerapkan kerangka CRISP-DM untuk membangun klasifikasi penyakit jantung dengan pendekatan sistematis yang menekankan optimalisasi preprocessing data. Algoritma k-Nearest Neighbor (KNN) digunakan sebagai model dasar, dengan empat skema preprocessing yang dibandingkan: baseline dengan encoding, penambahan normalisasi, integrasi seleksi fitur berbasis Information Gain, serta kombinasi normalisasi, SMOTE dan seleksi fitur. Proses evaluasi dilakukan menggunakan 10 fold cross validation dengan metrik akurasi, presisi, recall, F1-score dan AUC. Hasil eksperimen menunjukkan bahwa skema keempat memberikan performa terbaik dengan akurasi 81,26 persen dan AUC 0,8460, melampaui skema lainnya. Fakta ini menegaskan bahwa strategi preprocessing yang tepat berkontribusi signifikan terhadap peningkatan performa model. Implikasi penelitian ini adalah perlunya menempatkan preprocessing sebagai bagian integral dari kerangka CRISP-DM, bukan sekadar langkah tambahan, serta membuka peluang penelitian lanjutan untuk mengeksplorasi variasi teknik preprocessing yang lebih adaptif. Pada tataran implementasi nyata, kombinasi preprocessing terbaik dengan algoritma yang lebih kuat dapat dipertimbangkan guna menghasilkan sistem prediksi penyakit jantung yang akurat dan andal.

Downloads

Download data is not yet available.

References

A. Wahyu et al., “PEDULI KESEHATAN JANTUNG UPAYA MEMBANGUN MASYARAKAT SADAR KESEHATAN JANTUNG DI DESA NGAWI JAWA TIMUR,” vol. 6, no. 3, 2022, doi: 10.31764/jpmb.v6i3.9823.

“Peningkatan Pengetahuan dan Keterampilan Kader dalam Penanganan Korban Gawat Darurat Henti Jantung Prehospital,” Cardiology (Switzerland), vol. 7, no. 2. pp. 121–127, 2025. doi: 10.1159/000165558.

I. Y. Pramunsyi, J. Dharmawan, and R. Widiastutik, “Analis Diagnosa Anak Berkebutuhan Khusus Menggunakan Metode Decision Tree ( Studi Kasus di Sekolah Luar Biasa Sumenep ),” vol. 3, no. 2, pp. 299–306, 2024, doi: 10.24929/jars.v3i1.3785.

D. Kurniawan and M. Yasir, “Optimization Sentimen Analysis using CRISP-DM and Naive Bayes Methods Implemented on Social Media,” Cybersp. J. Pendidik. Teknol. Inf., vol. 6, no. 2, p. 74, 2022, doi: 10.22373/cj.v6i2.12793.

S. Lestari, M. Mupaat, and A. Erfina, “Analisis Sentimen Masyarakat Indonesia terhadap Pemindahan Ibu Kota Negara Indonesia pada Twitter,” JUSIFO (Jurnal Sist. Informasi), vol. 8, no. 1, pp. 13–22, 2022, doi: 10.19109/jusifo.v8i1.12116.

M. R. Baihaqi, T. N. Padilah, M. Jajuli, J. M. H. Y. Al-Afghoni, Wahyudi Setiawan, and Y. Dwi Putra Negara, “Klasifikasi Jenis Benih Kacang Menggunakan Smote Dan Decision Tree C4.5,” JATI (Jurnal Mhs. Tek. Inform., vol. 7, no. 1, pp. 661–671, 2024, doi: 10.36040/jati.v9i1.12366.

A. M. A. Rahim, Inggrid Yanuar Risca Pratiwi, and Muhammad Ainul Fikri, “Klasifikasi Penyakit Jantung Menggunakan Metode Synthetic Minority Over-Sampling Technique Dan Random Forest Clasifier,” Indones. J. Comput. Sci., vol. 12, no. 5, pp. 2995–3011, 2023, doi: 10.33022/ijcs.v12i5.3413.

M. R. Baihaqi, T. N. Padilah, and M. Jajuli, “Implementasi Metode Imputasi Mean dan Single Center Imputation Chained Equation (SICE) Terhadap Hasil Prediksi Linear Regression pada Data Numerik,” J. JTIK (Jurnal Teknol. Inf. dan Komunikasi), vol. 7, no. 4, pp. 661–671, 2023, doi: 10.35870/jtik.v7i4.1169.

A. A. Baskara, N. M. Piranti, and M. F. Romdendine, “FRAMEWORK DATA MINING : SEBUAH SURVEI,” vol. 9, no. 3, pp. 4886–4895, 2025, doi: 10.36040/jati.v9i3.13803.

F. Yulian Pamuji, A. Rofiqul Muslikh, R. Muhammad Arief, and D. Muti, “JIP (Jurnal Informatika Polinema) KOMPARASI METODE MEAN DAN KNN IMPUTATION DALAM MENGATASI MISSING VALUE PADA DATASET KECIL”, doi: 10.33795/jip.v10i2.5031.

N. Suhandi, R. Gustriansyah, A. Destria, M. Amalia, and V. Kris, “Prediksi Kualitas Susu Menggunakan Metode K-Nearest Neighbors Milk Quality Prediction Using The K-Nearest Neighbors Method,” vol. 14, no. 2, 2024, doi: 10.30700/sisfotenika.v14i2.430.

M. A. M. Setiawan, K. Kusrini, and A. D. Hartono, “Menggunakan Metode Machine Learning Untuk Memprediksi Nilai Mahasiswa Dengan Model Prediksi Multiclass,” J. Inform. J. Pengemb. IT, vol. 10, no. 1, pp. 190–204, 2025, doi: 10.30591/jpit.v10i1.8334.

S. Zulaikhah Hariyanti Rukmana, A. Aziz, and W. Harianto, “Optimasi Algoritma K-Nearest Neighbor (Knn) Dengan Normalisasi Dan Seleksi Fitur Untuk Klasifikasi Penyakit Liver,” JATI (Jurnal Mhs. Tek. Inform., vol. 6, no. 2, pp. 439–445, 2022, doi: 10.36040/jati.v6i2.4722.

J. T. Kumalasari, A. Merdekawati, and A. Hidayati, “Klasifikasi Multi Class Pada Metode Kerja Jarak Jauh Menggunakan Algoritma Decision Tree dan Imbalance Data,” J. Inf. Syst. Applied, Manag. Account. Res., vol. 8, no. 1, p. 109, Jan. 2024, doi: 10.52362/jisamar.v8i1.1350.

E. Sahelvi, P. Cikita, and R. M. Sapitri, “Comparison of K-Nearest Neighbors and Random Forest Algorithms for Recommendations for a Healthy Lifestyle in Prevent Heart Disease Perbandingan Algoritma K-Nearest Neighbors dan Random Forest untuk Rekomendasi Gaya Hidup Sehat dalam Mencegah Penyakit Jan,” vol. 5, no. July, pp. 830–840, 2025, doi: 10.57152/malcom.v5i3.1972.

W. A. Firmansyach, U. Hayati, and Y. Arie Wijaya, “Analisa Terjadinya Overfitting Dan Underfitting Pada Algoritma Naive Bayes Dan Decision Tree Dengan Teknik Cross Validation,” JATI (Jurnal Mhs. Tek. Inform., vol. 7, no. 1, pp. 262–269, 2023, doi: 10.36040/jati.v7i1.6329.

Downloads

Published

26-08-2025

How to Cite

[1]
W. Nursahid, B. I. Nugroho, and S. Syefudin, “Optimalisasi Preprocessing Data Menggunakan Pendekatan CRISP-DM untuk Meningkatkan Kualitas Klasifikasi Penyakit Jantung”, RIGGS, vol. 4, no. 3, pp. 3621–3626, Aug. 2025.

Most read articles by the same author(s)