Analisa cluster merupakan suatu bentuk pengenalan pola yang berkaitan dengan pembelajaran secara unsupervised, dimana jumlah pola kelas tidak diketahui [11][5]. Proses clustering berusaha membagi data set dengan mengelompokkan seluruh pixel pada feature space (ruang ciri) ke dalam sejumlah cluster secara alami. Hampir semua algoritma clustering yang populer selalu mengharuskan adanya inisialisasi jumlah cluster awal [8][3]. Padahal jumlah ini sangatlah sulit untuk diketahui, sebab dibutuhkan orang yang benar-benar menguasai konfigurasi objeknya.
Dengan adanya fenomena tersebut, maka para peneliti dalam bidang pengenalan pola (pattern recognition) berusaha menghasilkan algoritma yang mampu mendeteksi jumlah cluster ini secara otomatis [3][8][5]. J. J. Simpson [5] telah mengembangkan algoritma ISMC (Improved Split and Merge Classification). Algoritma clustering ini menggabungkan proses split dan merge yang diiterasi hingga konvergen. Prosedur split yang dikembangkannya berusaha membagi sebuah cluster menjadi 2 sub cluster. Pembagiannya berdasarkan pasangan pixel yang jaraknya terjauh (2 pixel kutub). Setelah masing-masing pixel telah memilih salah satu pixel kutub ini, maka terbentuklah 2 sub cluster baru. Tiap cluster yang sudah terbentuk dipecah lagi dengan proses yang sama hingga ukuran cluster tersebut melampaui batas Threshold untuk split. Selanjutnya dilakukan proses penggabungan (merging) antar cluster yang berdekatan. Proses selanjutnya adalah partitional, yakni assignment pixel terhadap tiap pusat cluster untuk menentukan pusat cluster baru. Proses split, merge, dan partitional ini diulang hingga konvergen. Nampak bahwa mekanisme split pada algoritma tersebut tidak mempertimbangkan lokasi tempat berkumpulnya mayoritas pixel. Namun hanya mempertimbangkan jarak terjauh antar pixel. Hal ini bisa mengakibatkan pemotongan cluster yang berada di antara kedua pixel tersebut. Penyebabnya bisa berupa perbedaan distribusi atau juga ukuran cluster yang terlalu besar. Dengan demikian dibutuhkan metode split yang memperhatikan distribusi pixel dalam feature space. Distribusi ini dapat digambarkan melalui histogram, dimana tiap kurva yang terbentuk dapat diasosiasikan sebagai sebuah cluster.
Masalah dalam pembagian secara langsung ini juga dilakukan oleh Mehmet Celenk [6]. Metodenya menggabungkan split dan merge, dengan membagi seluruh citra menjadi non-overlapping window 4x4. Tiap window di-split menjadi 2 cluster dengan K-means clustering, dan ini bisa dilakukan secara paralel. Seluruh cluster hasil split, digabungkan dengan metode yang sama. Oleh karena tiap 1 window memiliki 2 cluster, maka jumlah cluster menjadi sedemikian banyak, sehingga proses merge akan memakan waktu lama. Dengan demikian, dibutuhkan metode yang secepat mungkin mampu membentuk sejumlah cluster.
Pada kenyataannya, proses pembentukan cluster dengan pencarian kurva pada feature space citra multispektral sangatlah sulit. Sebab dibutuhkan teknik scanning kurva yang sangat rumit. Cara yang termudah adalah mentransformasikannya menjadi satu dimensi, namun mampu mewakili seluruh spektrum. Proses ini biasa disebut dengan PCT (Principal Component Transformation). Bila proses split di atas menghasilkan cluster yang cukup banyak, maka dibutuhkan metode pengabungan yang lebih ketat.
Penggabungan ini tidak hanya sekedar mencari cluster yang terdekat kemudian digabungkan, namun juga perlu dilihat apakah efek penggabungan ini menyebabkan chain effect. Efek ini sangat mungkin terjadi, bila pada citra tersebut terdapat noise. Noise yang terletak diantara 2 cluster yang berjauhan dapat bertindak sebagai perantara. Akibatnya, kedua cluster yang seharusnya tidak layak digabung ini, akhirnya akan tergabung, bila salah satu cluster tersebut menarik cluster noise untuk menjadi anggotanya. Masalah lain yang harus dihadapi oleh algoritma clustering adalah adanya uncentainty baik yang berupa noise maupun outlier. Salah satu metode yang dapat mengatasi kedua problema ini adalah Fuzzy C-Means (FCM) [4]. Algoritma ini selanjutnya dikembangkan oleh para peneliti [7][3][8] untuk meningkatkan kinerjanya.
Posisi noise dan outlier, pada umumnya berada di antara sejumlah cluster, dimana jarak terhadap tiap pusat cluster tersebut hampir sama. Dengan metode ini, membership keduanya terhadap semua pusat cluster tidak akan terlalu besar. Sehingga tidak akan terlalu menentukan lokasi pusat cluster yang diikutinya pada tiap iterasi. Penelitian ini bertujuan untuk membangun sebuah perangkat lunak yang mampu melakukan unsupervised classification (klasifikasi tak terawasi) terhadap citra multispektral dengan lebih akurat, dalam artian kondisi cluster yang lebih kompak dan perbedaan antar cluster
yang lebih meningkat, serta ketepatan pengenalan kelas yang lebih tinggi.
K-Means merupakan metode data clustering yang digolongkan sebagai metode
pengklasifikasian yang bersifat unsupervised (tanpa arahan). Pengkategorian metode-metode pengklasifikasian data antara supervised dan unsupervised classification didasarkan pada adanya dataset yang data itemnya sudah sejak awal mempunyai label kelas dan dataset yang data itemnya tidak mempunyai label kelas. Untuk data yang sudah mempunyai label kelas, metode pengklasifikasian yang digunakan merupakan metode supervised classification dan untuk data yang belum mempunyai label kelas, metode pengklasifikasian yang digunakan adalah metode unsupervised classification. Selain masalah optimasi pengelompokan data ke masing-masing cluster, data clustering juga diasosiasikan dengan permasalahan penentuan jumlah cluster yang paling tepat untuk data yang dianalisa. Untuk kedua jenis K-Means, baik Hard K-Means dan Fuzzy K-Means, yang telah dijelaskan di atas, penentuan jumlah cluster untuk dataset yang dianalisa umumnya dilakukan secara supervised atau ditentukan dari awal oleh pengguna, walaupun dalam penerapannya ada beberapa metode yang sering dipasangkan dengan metode K-Means. Karena secara teori metode penentuan jumlah cluster ini tidak sama dengan metode pengelompokan yang dilakukan oleh K-Means, kevalidan jumlah cluster yang dihasilkan umumnya masih dipertanyakan. Melihat keadaan dimana pengguna umumnya sering menentukan jumlah cluster sendiri secara terpisah, baik itu dengan menggunakan metode tertentu atau berdasarkan pengalaman, di sini, kedua metode K-Means ini dapat disebut sebagai metode semi-supervised classification, karena metode ini mengalokasikan data items ke masing-masing cluster secara unsupervised dan enentukan jumlah cluster yang paling sesuai dengan data yang dianalisa secara supervised.
Metode UnSupervised
21.58 |
Langganan:
Posting Komentar (Atom)
0 komentar:
Posting Komentar