Perbandingan Metode Clustering Menggunakan Metode Single Linkage dan K - Means pada Pengelompokan Dokumen

Rendy Handoyo, Rumani Mangkudjaja, Surya Michrandi Nasution

Abstract


Penyebaran berita saat ini semakin tersebar  luas semenjak perkembangan dunia internet yang semakin pesat. Perkembangan dunia internet membuat berita yang  tersebar semakin beragam dan berjumlah  sangat besar. Pembaca berita akan kesulitan untuk memperoleh berita yang diinginkan  jika berita tersebut tidak terkelompok dengan baik. Dan jika harus dikelompokkan secara manual membutuhkan waktu yang sangat lama. Oleh sebab itu, Clustering menjadi solusi untuk mengatasi masalah tersebut. Clustering akan  mengelompokkan dokumen berita berdasarkan  tingkat kemiripan dari dokumen tersebut.

Metode Single Linkage merupakan metode pengelompokan hierarchical clustering. Metode Single Linkage mengelompokkan dokumen didasarkan pada jarak terdekat antar dokumen. Komputasi Single Linkage merupakan komputasi yang mahal dan kompleks.  Sedangkan metode K-means merupakan metode pengelompokan partitioned clustering. Metode K-means mengelompokkan dokumen didasarkan pada jarak terdekat dengan centroid-nya. K-Means merupakan  metode pengelompokan yang sederhana dan dapat digunakan dengan mudah. Tetapi pada jenis data tertentu, K-means tidak dapat memberikan segementasi data dengan baik, sehingga kelompok yang terbentuk tidak murni data yang sama.

Metode pengujian yang digunakan untuk mengukur kualitas cluster adalah Silhouette Coefficient dan Purity. Berdasarkan hasil pengujian yang dilakukan, dapat disimpulkan, bahwa metode Single Linkage memiliki performansi yang lebih baik dibandingkan dengan metode K-means. Nilai silhouette coefficient Single Linkage selalu lebih unggul dibandingkan dengan  K-Means. Pertambahan jumlah dokumen membuat nilai silhouette coefficient single linkage semakin kecil sedangkan K-means terkadang menghasilkan nilai yang negatif. Untuk nilai purity, Single Linkage selalu bernilai 1 sedangkan K-Means tidak pernah bernilai 1. Hasil pertambahan jumlah cluster dan jumlah dokumen memberikan pengaruh terhadap nilai silhouette coefficient dan purity. Hal ini berarti single linkage selalu menghasilkan dokumen yang sama, sedangkan K-means masih bercampur dengan dokumen yang lain.

Keywords


Clustering, HAC, Partitioned, Single Linkage, K-Means, Silhouettte Coefficient, purity.

Full Text: PDF

Refbacks

  • There are currently no refbacks.


Creative Commons License
The JSM site and its metadata are licensed under CC BY-NC-ND