Senin, 09 Februari 2009

analisis gerombol (cluster analysis) by refki hedianto_15407055

Analisis Gerombol (cluster analysis)

Tujuan utama dari analisis gerombol adalah mengelompokkan objek-objek
berdasarkan kesamaan karakteristik di antara objek-objek tersebut. Objek tersebut
akan diklasifikasikan ke dalam satu atau beberapa cluster (kelompok) sehingga
objek-objek yang berada dalam satu cluster akan mempunyai kemiripan satu
dengan yang lain. Homogenitas yang tinggi antar anggota dalam cluster
(withincluster) dan heterogenitas (perbedaan) yang tinggi antar cluster yang satu
dengan yang lainnya (between cluster) merupakan dua hal yang harus dimiliki
sebuah cluster agar dapat dikatakan cluster itu baik.
Menurut Handayani (1984) dalam menentukan analisis gerombol
sebaiknya diamati terlebih dahulu pola nilai matrik korelasi dari data. Kemudian
menghitung persentase korelasi sedang (0,31-0,75) dan besar (0,76 – 1,00). Jika
persentase korelasi sedang dan besar antara 10 % sampai 100%, maka data skor

komponen memberikan hasil yang lebih baik dari data asal. Dimana data skor
komponen diperoleh dengan menggunakan analisis komponen utama.
Hal pertama dilakukan setelah pengamatan pola tersebut adalah
menstandarisasi dengan mengubah nilai ke dalam bentuk Z-Score. Hal ini
dilakukan apabila data-datanya mempunyai nilai yang perbedaannya besar.
Setelah itu kita mengukur kesamaan antar objek (similarity). Ada 3 hal yang
dilakukankan yaitu:
1. Mengukur korelasi antar sepasang objek pada beberapa peubah,
2. Mengukur jarak (distance) antara dua objek. Pengukur ada bermacam-macam,
yang paling populer adalah metode Euclidean Distance dan jarak Mahalanobis.
Euclidean Distance dinyatakan dengan:
d ( X ,Y ) = (( X − Y )' I ( X − Y ))1 / 2 (18)
d (X,Y) adalah jarak antara individu X dan Y, dan p adalah banyaknya peubah,
sedangkan I adalah matriks identitas berukuran pxp.
3. Mengukur asosiasi antar objek.
Dalam analisis gerombol, ada dua metode yang dilakukan yaitu:
1. Hierarchical Method, metode ini memulai dengan mengelompokkan dua atau
lebih objek yang mempunyai kesamaan paling dekat. Kemudian proses
diteruskan ke objek lain yang mempunyai kedekatan kedua. Dendogram
biasanya dipergunakan untuk membantu memperjelas proses hierarki tersebut.
Untuk menghitung ulang jarak antar gerombol yang terbentuk, dalam
analisis gerombol pada proses hierarki dilakukan dengan beberapa metode
yaitu:

1. Metode pautan lengkap (complete linkage), yaitu memaksimumkan jarak
antar pasangan gerombol yang digabungkan.

2. Metode pautan rataan (average linkage), yaitu meminimumkan rata-rata
jarak antar pasangan gerombol yang digabungkan.

3. Metode pautan tunggal (single linkage), yaitu meminimumkan jarak antar
gerombol yang digabungkan.

4. Metode Ward (Ward’s Method), yaitu meminimumkan varians total
sehingga diperoleh gerombol yang homogen.

2. Non-Hierarchical Method. Metode ini dimulai dengan menentukan terlebih
dahulu jumlah gerombol yang diinginkan, sehingga sifat pengelompokannya
tidaklah alamiah karena dikondisikan untuk jumlah kelompok tertentu. Proses
dimulai dari menentukan nilai k yang merupakan pusat kelompok dengan cara
random dari data. Setelah itu baru proses cluster tanpa mengikuti proses
hierarki. Metode ini sering disebut dengan K-Means Cluster yang bertujuan
untuk mengelompokan data sedemikian hingga jarak tiap-tiap data ke pusat
kelompok dalam satu kelompok minimum.
Dalam penelitian ini digunakan metode Pautan rataan, karena metode ini
bertujuan untuk meminimumkan rataan jarak semua pasangan pengamatan dari
dua gerombol yang digunakan. Jarak dinyatakan dengan persamaan:
Σ Σ
= =
=
nA B
x
n
A B y
d X Y
n n
d A B
1 1
( , ) 1 ( , ) (19)
dimana d(A,B) adalah jarak antara gerombol A dan gerombol B, nA adalah jumlah
anggota gerombol A, nB adalah jumlah anggota gerombol B dan d(X,Y) adalah
jarak antara obyek X pada gerombol A dengan obyek Y pada gerombol B.

Source: www.youngstatistician.com Milist: stis44@yahoogroups.com

Tidak ada komentar:

Posting Komentar