Why Should Euclidean Distance Not Be the Default Distance Measure? – Towards AI

Why Should Euclidean Distance Not Be the Default Distance Measure? – Towards AI

Pengarang: Harjot Kauro

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Pengembangan berkelanjutan dari teknologi, sumber daya penyimpanan data, dan sumber daya komputasi, memunculkan produksi, penyimpanan, dan pemrosesan volume data yang tumbuh secara eksponensial. Biasanya, aplikasi penambangan data melibatkan penanganan sejumlah besar data dimensi tinggi ini.

Teknik utama yang digunakan dalam penambangan data bergantung pada ukuran yang disimpulkan dari jarak Euclidean untuk menilai perbedaan jarak antar objek. Namun, banyak penelitian menunjukkan bahwa sebagian besar teknik yang ada tidak cocok untuk data berdimensi tinggi karena fenomena yang dikenal sebagai “kutukan dimensi”. Kutukan penambangan data berdimensi tinggi ini muncul ketika konsep seperti kedekatan, jarak, atau tetangga terdekat menjadi kurang bermakna dengan meningkatnya dimensi kumpulan data. Studi menunjukkan bahwa jarak relatif antara titik terjauh dan titik terdekat konvergen ke 0 dengan peningkatan dimensi d:

Sumber: Efektivitas jarak Euclidean dalam ruang dimensi tinggi

Dengan kata lain, diskriminasi antara tetangga terdekat dan terjauh dalam populasi sampel menjadi lebih lemah dalam ruang dimensi tinggi.

Selanjutnya, makalah, On the Surprising Behavior of Distance Metrics in High Dimensional Space, membuktikan bahwa norma Euclidean (L2) (baca lebih lanjut tentang norma vektor di sini), seringkali bukan metrik yang diinginkan untuk aplikasi data mining berdimensi tinggi. Untuk berbagai macam fungsi jarak, karena konsentrasi jarak dalam ruang dimensi tinggi, rasio jarak tetangga terdekat dan terjauh ke target yang diberikan hampir satu. Akibatnya, tidak ada variasi antara jarak titik data yang berbeda.

Biasanya, sebagian besar masalah dunia nyata beroperasi dalam ruang data berdimensi tinggi, oleh karena itu, jarak Euclidean umumnya bukan metrik yang diinginkan untuk aplikasi penambangan data berdimensi tinggi.

Apakah ada ukuran jarak yang lebih baik untuk data dimensi tinggi?

Makalah tersebut di atas menyelidiki perilaku norma Lk di ruang dimensi tinggi. Berdasarkan hasil ini, untuk nilai d berdimensi tinggi tertentu, mungkin lebih baik menggunakan nilai k yang lebih rendah. Dengan kata lain, untuk aplikasi berdimensi tinggi, jarak L1 lebih menguntungkan daripada L2.

Sahar Sohangir dan Dingding Wang, dalam makalahnya, Peningkatan pengukuran kesamaan sqrt‑cosine mengusulkan metrik pengukuran kesamaan sqrt-cosine (ISC) yang ditingkatkan. ISC dinyatakan sebagai berikut:

Sumber: Peningkatan sqrt‑pengukuran kesamaan kosinus

ISC adalah perpanjangan dari jarak Hellinger, yang merupakan norma L1 (terbukti bahwa dalam data berdimensi tinggi, norma L1 bekerja lebih baik daripada norma L2). Dalam persamaan di atas, alih-alih menggunakan norma L1, kami menggunakan akar kuadrat dari norma L1.

Makalah ini mengesankan bahwa sebagian besar aplikasi menganggap kesamaan kosinus sebagai “keadaan seni” dalam pengukuran kesamaan. ISC berkinerja baik bila dibandingkan dengan kesamaan kosinus dan teknik populer lainnya untuk mengukur kesamaan dalam ruang data dimensi tinggi.

Sumber: Peningkatan sqrt‑pengukuran kesamaan kosinus

Tongkat panduan untuk memilih ukuran jarak ‘terbaik’

Kita harus memahami bahwa mungkin tidak pernah ada ukuran jarak yang ‘terbaik’, tetapi selalu ada ukuran yang ‘benar’. Pemilihan ukuran jarak yang tepat tergantung pada faktor-faktor seperti distribusi data, dimensi data, tipe data, harapan/tujuan yang kita kejar, dll. Misalnya, jika kita berurusan dengan data teks, kita tahu kesamaan kosinus cenderung bekerja lebih baik. Demikian pula, data dengan noise dan outlier yang lebih tinggi mungkin tidak mudah ditangani dengan jarak Euclidean. Sekali lagi, jarak Euclidean berkinerja sangat baik pada data dua dimensi, di mana tujuannya adalah untuk mengukur besarnya.

Kutipan dari makalah, A Comparison Study on Similarity and Dissimilarity Measures in Clustering Continuous Data, memberikan cukup banyak arahan untuk memilih ukuran jarak yang ‘benar’.

Sumber: https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.014059&type=printable

Kesimpulan

Umumnya, sebagian besar masalah dunia nyata beroperasi dalam ruang data berdimensi tinggi yang membuat jarak Euclidean bukan ukuran yang paling diinginkan. Untuk ruang data berdimensi tinggi, peningkatan sqrt-cosinus (ISC) telah terbukti berkinerja lebih baik daripada kebanyakan ukuran. Namun, tidak mungkin ada satu ukuran jarak yang cocok untuk setiap situasi. Praktisi data harus hati-hati memeriksa faktor-faktor seperti distribusi data, dimensi data, tipe data, kebisingan, harapan/tujuan yang kita kejar, dll., sebelum memilih ukuran ‘benar’ dan STOP menetapkan ‘jarak Euclidean sebagai ukuran jarak default’.

Terakhir, terima kasih atas kesabaran Anda dalam membaca sampai akhir dan jika Anda merasa karya ini bermanfaat, beri saya satu atau dua tepuk tangan! dan jika tidak, tulis kembali dengan komentar dan pertanyaan Anda; Saya akan dengan senang hati menjawab dan terhubung untuk diskusi di Linkedin.

Referensi:

a) https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.014059&type=printable

b) https://www.researchgate.net/profile/Jonathan-Goldstein-8/publication/2845566_When_Is_Nearest_Neighbor_Meaningful/links/09e4150b3eb298bf21000000/When-Is-Nearest-Neighbor-Meaningful.pdf

c) http://kops.uni-konstanz.de/bitstream/handle/123456789/5849/P506.pdf?sequence=1&isAllowed=y

d) https://bib.dbvis.de/uploadedFiles/155.pdf

e) https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6

Mengapa Jarak Euclidean Bukan Pengukur Jarak Default? awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Jonathan Kelly