GİRİŞ
Veri Madenciliği (VM) büyük boyutlardaki verilerden gelen bilgileri çekip çıkararak gizli kalmış bilgileri ve olanakları gerçek zamanlı uygulamalar için kullanılmasıdır. Veri Madenciliği veri analizi için çok çeşitli algoritmalara sahiptir. Bunlardan bazıları Kümeleme, Birliktelik, Sınıflamadır. (1)
Kümeleme, verinin benzer nesnelerden oluşturulmuş gruplara bölünmesidir. Kümeleme işleminde küme içindeki elemanların benzerliği fazla, kümeler arası benzerlik ise az olmalıdır (2,3). Bir kümeleme yönteminin kalitesi bu prensibi sağlaması ile doğru orantılıdır. Kümeleme yöntemi seçimi kullanılacak veri türüne ve uygulamanın amacına göre farklılık gösterir.
Bu çalışmada K-means ve K-Medoids kümeleme algoritmaları ile Iris veri seti kullanılarak analiz ve yorumlamalar yapılmıştır. Aynı zamanda bu iki algoritma bu veriler doğrultusunda karşılaştırılmıştır.
VERİ SETİ TANITIMI
Bu çalışmada örnek olarak kullanacağımız veri seti yapay öğrenme alanının en popüler veri setlerinden “Iris” veri seti.(4) Iris veri seti 3 Iris bitki türüne (Iris setosa, Iris virginica and Iris versicolor) ait, her bir türden 50 örnek olmak üzere toplam 150 örnek sayısına sahip bir veri setidir. Her bir örnek için 4 özellik tanımlanmıştır: taç yaprak uzunluğu (a1), taç yaprak genişliği(a2), çanak yaprak genişliği(a3), taç yaprak genişliğia(a4). Yani veri setimizde, her bir bitki örneği ayrı bir gözlemi ifade ederken; bitki tür ismi bağımlı değişken, bitkilerin ölçülen 4 temel özelliği ise bağımsız değişkenleri ifade eder. (5)
Çalışma için bu veri setini seçmemin amacı da kümeleme işlemi yaparken kullanacağım algoritmaların kümeleme sayılarını daha rahat karşılaştırabilmektir.
KULLANILAN ALGORİTMALARIN TANIMLARI
K-Means Kümeleme Algoritması
En eski kümeleme algoritmalarından olan k-means, 1967 yılında J.B. MacQueen tarafından geliştirilmiştir (MacQueen, 1967). K-Means aşamaları Şekil 1’de gösterilmiştir. En yaygın kullanılan gözetimsiz öğrenme yöntemlerinden birisi olan K-means’in atama mekanizması, her verinin sadece bir kümeye ait olabilmesine izin verir. Bu nedenle, keskin bir kümeleme algoritmasıdır. Merkez noktanın kümeyi temsil etmesi ana fikrine dayalı bir metottur (Han ve Kamber, 2001). Eşit büyüklükte küresel kümeleri bulmaya eğilimlidir.(6)
Şekil 1. K-Means algoritması aşamaları. (7)
K-means kümeleme yönteminin değerlendirilmesinde en yaygın olarak karesel hata kriteri SSE kullanılır. En düşük SSE değerine sahip kümeleme sonucu en iyi sonucu verir. Nesnelerin bulundukları kümenin merkez noktalarına olan uzaklıklarının karelerinin toplamı (1) nolu eşitlik ile hesaplanmaktadır (Pang-Ning vd., 2006).
Bu kriterleme sonucu, k tane kümenin olabildiğince yoğun ve birbirinden ayrı sonuçlanması hedeflenmeye çalışılır. Algoritma, karesel-hata fonksiyonunu azaltacak k parçayı belirlemeye gayret eder. K-means algoritması, algoritmaya kullanıcı tarafından verilen k parametresi ile n tane veriden oluşan veri setini k adet kümeye böler. Küme benzerliği kümedeki nesnelerin ortalama değeri ile ölçülür, bu da kümenin ağırlık merkezidir (Xu veWunsch, 2005). (6)
Avatajları:
Küme sayısı az ise büyük veri setlerinde hiyerarşik kümeleye göre daha hızlıdır.
Eğer veri seti özellikle küresel ise hiyerarşik kümelemeye göre daha sıkı kümeler oluşturur.
Dezavantajları:
Üretilen kümeler arasında kıyas yapmak zordur.
Sabitlenmiş küme sayısı, küme sayısının tahminini zorlaştırır.
Küresel olmayan veri setlerinde iyi çalışmaz.
Farklı başlangıç bölümlemeleri ile farklı sonuç kümeleri elde edilir.
Gürültülü veriye duyarlıdır. (2)
K-medoids Algoritmasının Yapısı
K-medoids algoritmasının temeli, verinin çeşitli yapısal özelliklerini temsil eden k tane temsilci nesneyi bulma esasına dayanır (Kaufman ve Rousseeuw, 1987). Temsilci nesne medoid olarak adlandırılır ve kümenin merkezine en yakın noktadır. Bir grup nesneyi k tane kümeye bölerken asıl amaç, birbirine çok benzeyen nesnelerin bir arada bulunduğu ve farklı kümelerdeki nesnelerin birbirinden benzersiz olduğu kümeleri bulmaktır. En yaygın kullanılan k-medoids algoritması, 1987 yılında Kaufman and Rousseeuw tarafından geliştirilmiştir (Kaufman ve Rousseeuw, 1990). Temsilci nesne, diğer nesnelere olan ortalama uzaklığı minimum yapan kümenin en merkezi nesnesidir. Bu nedenle, bu bölünme metodu her bir nesne ve onun referans noktası arasındaki benzersizliklerin toplamını küçültme mantığı esas alınarak uygulanır. Kümeleme literatüründe temsilci nesnelere çoğunlukla merkeztipler (centrotypes) denilmektedir. PAM (Partitioning Around Medoids) algoritmasında temsilci nesneler medoid olarak adlandırılmaktadır (Kaufman ve Rousseeuw, 1990). Amacın k tane nesneyi bulmak olmasından dolayı, k-medoids metodu olarak adlandırılmaktadır. k adet temsilci nesne tespit edildikten sonra her bir nesne en yakın olduğu temsilciye atanarak k tane küme oluşturulur. Sonraki adımlarda her bir temsilci nesne temsilci olmayan nesne ile değiştirilerek kümelemenin kalitesi yükseltilinceye kadar ötelenir. Bu kalite nesne ile ait olduğu kümenin temsilci nesnesi arasındaki ortalama benzersizlik maliyet fonksiyonu kullanılarak değerlendirilir.(6)
Avantajları:
Daha iyi ve kararlı kümeleme sonuçları verir.
Verilerin işleniş sırası ve ilk atamada ki merkez seçiminin kümeleme üzerinde etkisi yoktur.
Merkezi elemanların kümeyi temsil etmesinden dolayı gürültülü veriye karşı duyarlı değildir.
Dejavantajları:
Uygun küme sayısının belirlenmesi için birden fazla deneme yapmak gerekir. (2)
Şekil 2. K-Medoids algoritması aşamaları. (8)
ANALİZ SONUÇLARI
İki kümeleme algoritması için de k=2, k=3, k=4 ve k=5 değerleri kullanılarak kümeleme yapılmıştır. (Şekil 3)