the case of clustering – Towards AI

the case of clustering – Towards AI

Pengarang: Kevin Berlemont, PhD

Awalnya diterbitkan di Menuju AI.

Pemilihan Fitur untuk Masalah Tanpa Pengawasan: Kasus Pengelompokan

Foto oleh NASA di Unsplash

Dengan pertumbuhan data yang masif selama dekade terakhir, memilih fitur yang tepat menjadi tantangan besar. Teknik terkenal dalam pemrosesan data terdiri dari reduksi dimensi. Proses ini mencoba untuk menghapus fitur yang berlebihan dan tidak relevan yang akan menurunkan kinerja. Metode-metode ini dapat dikategorikan antara ekstraksi/konstruksi fitur dan pemilihan fitur. Dalam kasus ekstraksi fitur, dimensi data dikurangi dengan menurunkan fitur baru berdasarkan fitur aslinya. Contoh dari proses ini adalah Analisis Komponen Utama [1] dan Dekomposisi Nilai Singular [2]. Di sisi lain, pemilihan fitur mencoba memilih subset, idealnya kecil, dari fitur yang relevan. Pendekatan ini diperlukan ketika ada sejumlah besar fitur dalam kumpulan data dan tujuannya adalah untuk mengurangi kompleksitas komputasi dan mendapatkan model yang dapat digeneralisasikan.

Pendekatan pemilihan fitur biasanya memerlukan label kelas untuk menentukan apakah suatu fitur relevan atau tidak. Namun, ketika label kelas tidak diketahui, seperti untuk pengelompokan, bagaimana fitur dapat diklasifikasikan sebagai relevan? Seleksi fitur dapat dikategorikan dalam empat kategori:

Metode filter mencoba untuk memilih subset fitur yang optimal sesuai dengan karakteristik umum data tetapi bukan dari algoritme pembelajaran. Secara umum, filter menghitung skor subset fitur menggunakan kriteria evaluasi tertentu. Metode wrappers membutuhkan pembelajar untuk mengevaluasi kebaikan dari subset fitur. Dengan demikian, mereka lebih mahal secara komputasi tetapi akan meningkatkan kinerja algoritma pembelajaran tertentu. Metode hybrid mencoba mendapatkan keuntungan dari kedua metode di atas dengan menggabungkannya dalam proses dua tahap. Metode tertanam menanamkan fitur langsung ke dalam algoritma pembelajaran. Namun, mereka seringkali tidak mencapai kinerja yang lebih baik daripada pembungkus.

Selanjutnya, saya akan menjelaskan metode pemilihan fitur khusus untuk semua kategori yang berbeda ini, menyoroti kapan dan bagaimana menggunakannya.

Pendekatan Filter

Filter memilih fitur dalam data sesuai dengan karakteristik fitur. Mereka secara langsung mengevaluasi kinerja statistik fitur dalam data. Pendekatan filter yang diusulkan [3] adalah untuk mengukur ketergantungan antara fitur berdasarkan metrik berbasis varians (maksimal informasi kompresi indeks, MICI). Pendekatan ini membagi fitur menjadi cluster dengan cara yang mirip dengan algoritma k-nearest neighbor. Pada setiap iterasi, k fitur terdekat ditemukan untuk setiap fitur berdasarkan MICI. Setelah itu, fitur yang membangun subset paling padat dipilih, dan prosedur ini diulang sampai semua fitur dipilih atau dibuang.

Metode pemfilteran lainnya terdiri dari pemilihan fitur menggunakan koefisien korelasi Pearson. Pertama, semua kemungkinan korelasi berpasangan antara fitur dan data dihitung. Kemudian, menghapus fitur dengan ketergantungan rata-rata tertinggi pada fitur lainnya. Selanjutnya, proses tersebut diulangi hingga jumlah fitur yang diinginkan tercapai.

Seperti yang ditunjukkan dengan dua contoh ini, metode filter biasanya bersifat umum karena tidak bergantung pada algoritme pembelajaran tertentu. Namun, kinerja pengelompokan mereka biasanya lebih rendah daripada metode pembungkus, yang akan menjadi fokus bagian selanjutnya.

Pendekatan Pembungkus untuk K-means

Pada bagian ini, saya akan fokus pada algoritma K-means untuk pengelompokan, karena pendekatan pembungkus khusus untuk algoritma yang dipilih. Untuk detail lebih lanjut tentang model lain, seperti algoritma evolusioner, saya merekomendasikan makalah berikut [4].

K-means adalah salah satu algoritme pengelompokan paling populer dalam Ilmu Data, tetapi salah satu kekurangan utamanya adalah ia mengevaluasi semua fitur dengan kepentingan yang sama. Dengan demikian, dalam kasus sejumlah besar fitur yang tidak relevan, kualitas proses pengelompokan akan menurun. Dalam konteks ini, penting untuk memberikan fitur tertentu lebih penting dengan memberi bobot pada fitur tersebut.

Algoritma cembung K-means [5] meningkatkan algoritme K-means standar dengan mengintegrasikan skema pembobotan adaptif dalam K-means. Ini mencoba untuk secara iteratif menentukan bobot optimal dari kumpulan fitur dengan meminimalkan rata-rata jarak dalam-cluster. Satu peringatan untuk pendekatan ini adalah bahwa pencarian minima dapat terjebak dalam optimum lokal karena pencarian penurunan gradien.

Pendekatan pembobotan fitur terkenal lainnya untuk K-means terdiri dari pengelompokan pembobotan atribut. Setiap fitur dapat memiliki bobot yang berbeda pada cluster yang berbeda. Tujuannya kemudian untuk meminimalkan jumlah jarak tertimbang dalam cluster. Metode dan varian ini benar-benar berhasil dalam pengelompokan, tetapi sangat bergantung pada hyperparameter yang menjaga bobot pada tingkat yang masuk akal.

Pendekatan Tertanam

Untuk pendekatan embedded, proses pemilihan fitur dilakukan sebagai bagian dari proses pembelajaran. Karena kinerja dan interpretasinya, pendekatan tertanam biasanya menggunakan algoritma pembelajaran yang jarang. Pertama, ia menemukan label klaster menggunakan algoritme pengelompokan, dan kemudian mengubah pemilihan fitur yang tidak diawasi menjadi konteks yang diawasi.

Salah satu metode pemilihan fitur pembelajaran jarang yang paling awal adalah pemilihan fitur multi-cluster. Pada langkah pertama, struktur intrinsik data dieksplorasi menggunakan analisis spektral untuk mengukur korelasi antar fitur. Pada langkah kedua, pentingnya fitur dikuantifikasi menggunakan model regresi teregulasi L1. Langkah terakhir terdiri dari pemilihan jumlah fitur yang ditentukan dengan koefisien tertinggi dari tahap sebelumnya. Pendekatan ini telah terbukti efisien dalam pemilihan fitur untuk pengelompokan tetapi mahal secara komputasi.

Metode sebelumnya terdiri dari pendekatan pemilihan fitur pembelajaran jarang konvensional yang membutuhkan label cluster yang dihasilkan oleh algoritma pengelompokan sebelum mengubah masalah menjadi masalah pemilihan fitur yang diawasi. Namun, pendekatan ini memiliki kecenderungan untuk menyebabkan subset fitur yang tidak optimal. Untuk mengatasi hal ini, pemilihan fitur tanpa pengawasan tersemat secara langsung menyematkan pemilihan fitur ke dalam algoritme pengelompokan tanpa transformasi. Ini menerapkan K-means dengan meminimalkan kesalahan rekonstruksi untuk mendapatkan label cluster dan memilih fitur. Namun, perlu berhati-hati tentang heterogenitas antar cluster dengan pendekatan ini karena memiliki kecenderungan untuk memilih fitur non-diskriminatif sebaliknya.

Pendekatan Hibrid

Dalam beberapa tahun terakhir, pendekatan hybrid untuk pemilihan fitur telah menjadi sangat populer. Salah satu contoh proses seleksi fitur dua arah mencoba menghilangkan fitur yang berlebihan dengan menggunakan ukuran berbasis entropi dan indeks evaluasi fuzzy. [6]. Setelah itu, ia mencoba untuk memilih subset fitur yang optimal menggunakan kriteria pencar jejak.

Metode pemilihan fitur hibrid populer lainnya menggabungkan jaringan Bayesian dan K-means, algoritma BFK. Ini pertama-tama melakukan langkah pembungkus dengan menerapkan K-means dengan berbagai cluster. Kemudian, klaster dengan nilai indeks Silhouette tertinggi dipilih. Pada tahap filter, subset fitur dipilih menggunakan jaringan Bayesian, yang menganggap setiap cluster dan fitur sebagai kelas dan node. Satu peringatan adalah jika struktur cluster tidak ditentukan dengan baik menggunakan indeks Silhouette, maka tahap kedua dari metode ini akan terpengaruh.

Kesimpulan

Pemilihan fitur adalah teknik penting dalam pemrosesan data yang membantu mengurangi kompleksitas data dan meningkatkan kinerja algoritma pembelajaran. Itu dapat dikategorikan ke dalam empat pendekatan utama: filter, pembungkus, hibrida, dan disematkan. Filter memilih fitur sesuai dengan karakteristik data, sedangkan pembungkus menggunakan algoritme pembelajaran untuk mengevaluasi kebaikan subset fitur. Metode hibrid menggabungkan filter dan pembungkus, sedangkan metode tersemat menyematkan pemilihan fitur langsung ke dalam algoritme pembelajaran.

Pengelompokan sebagai masalah tanpa pengawasan lebih sulit daripada klasifikasi karena ukuran evaluasi yang berbeda akan menunjukkan tingkat kebaikan yang berbeda untuk kumpulan kelompok yang sama. Dengan demikian sulit untuk mengembangkan langkah-langkah evaluasi yang komprehensif tetapi itu dapat mengarah pada pengembangan algoritma pencarian yang efisien untuk pemilihan fitur.

Referensi

[1] https://towardsdatascience.com/a-one-stop-shop-for-principal-component-analysis-5582fb7e0a9c
[2] https://towardsdatascience.com/understanding-singular-value-decomposition-and-its-application-in-data-science-388a54be95d
[3] Mitra, Pabitra, CA Murthy, and Sankar K.Pal. “Pemilihan fitur tanpa pengawasan menggunakan kesamaan fitur.” Transaksi IEEE pada analisis pola dan kecerdasan mesin 24.3 (2002): 301–312.
[4] Fop, Michael, Thomas Brendan Murphy, dan Luca Scrucca. “Pengelompokan berbasis model dengan matriks kovarians yang jarang.” Statistik dan Komputasi 29.4 (2019): 791–819.
[5] Modha, Dharmendra S., dan W. Scott Spangler. “Fitur pembobotan dalam pengelompokan k-means.” Pembelajaran mesin 52.3 (2003): 217–237.
[6] Pal, Sankar K., Rajat K.De, dan Jayanta Basak. “Evaluasi fitur tanpa pengawasan: Pendekatan neuro-fuzzy.” Transaksi IEEE pada jaringan saraf 11.2 (2000): 366–376.

Pemilihan fitur untuk masalah yang tidak diawasi: kasus pengelompokan awalnya diterbitkan di Towards AI on Medium, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Jonathan Kelly