Statistics 101- Part 3- Non-parametric Statistics, Their Types… – Towards AI

Statistics 101- Part 3- Non-parametric Statistics, Their Types… – Towards AI

Pengarang: Kumar kaushal

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Pengantar Statistik Non-Parametrik, berbagai jenis tes Non-Parametrik, dan aplikasinya

Foto oleh Chris Liverani di Unsplash

Ini adalah bagian ketiga dari seri Statistik 101, di mana konsep statistik Non-Parametrik akan dijelaskan secara rinci. Di dunia nyata, kita mungkin tidak selalu mendapatkan distribusi data yang terdefinisi dengan baik seperti distribusi normal. Dalam kasus seperti itu, kita harus menerapkan statistik Non-Parametrik.

Pada bagian pertama dari seri Statistik 101, disebutkan bahwa pengujian hipotesis untuk data sampel yang tidak terdistribusi normal akan melibatkan serangkaian distribusi yang berbeda seperti uji Median Mood – contoh uji non-parametrik.

Isi

Definisi Jenis Pengujian Non-Parametrik Aplikasi Model non-parametrik dalam Pembelajaran Mesin

Definisi

Ketika kita berbicara tentang distribusi normal, kita membuat beberapa asumsi tentang populasi dari mana sampel telah diambil. Berbeda dengan asumsi ini, statistik Non-Parametrik tidak membuat asumsi seperti itu mengenai bentuk distribusi populasi. Oleh karena itu, ini juga dikenal sebagai statistik bebas Distribusi. Terlepas dari keuntungan tidak membuat asumsi bentuk distribusi, statistik ini tidak memerlukan upaya komputasi sebanyak yang diperlukan oleh metode parametrik.

Metode-metode ini juga memiliki kelemahannya sendiri. Mereka tidak menangkap informasi sebanyak yang ditangkap oleh metode parametrik. Jika kita merepresentasikan daftar nilai seperti 190.2, 202.45, 345.56 sebagai 1,2 dan 3, maka kita mungkin melewatkan beberapa informasi.

Jenis tes Non-Parametrik

Tes tanda Tes Jumlah Peringkat Satu sampel Tes Jalankan Korelasi Peringkat Tes Kolmogorov-Smirnov

Mari kita perinci tes ini:

Tes tanda tangan

Hal ini berkaitan dengan arah sepasang pengamatan dalam hal positif atau negatif bukan nilai-nilai mereka. Misalnya, jika kita memiliki sepasang bobot sebelum dan sesudah program latihan dan kita menghitung jumlah contoh perbedaan bobot sebelum dan sesudah program adalah positif atau negatif. Di sini, hipotesis nolnya adalah bahwa tidak ada perbedaan antara bobot, dan hipotesis alternatifnya adalah bahwa ada perbedaan bobot. Harap perhatikan kesederhanaan dalam menghitung perbedaan dan menentukan apakah itu bilangan positif atau negatif. Pelaksanaan uji tanda dapat dirujuk di sini.

2. Tes Jumlah Peringkat

Untuk melakukan analisis uji varians, diasumsikan bahwa populasi berdistribusi normal dengan varians yang sama. Namun, ketika kondisi ini tidak terpenuhi, kami menggunakan tes Rank Sum. Uji Mann-Whitney digunakan bila terdapat dua populasi, dan uji Kruskal-Wallis digunakan bila terdapat lebih dari dua populasi. Di sini, istilah peringkat muncul karena setiap titik data dalam sampel diberi peringkat dan U-statistik dihitung.

Di bawah ini adalah hipotesis untuk uji Mann-Whitney:

Gambar oleh penulis

Rumus untuk U-statistik untuk dua skenario berbasis populasi ditunjukkan di bawah ini:

Gambar oleh penulis

dimana n1= jumlah titik data pada sampel 1, n2= jumlah titik data pada sampel 2, dan R1= jumlah rangking setiap titik data pada sampel 1.

Untuk uji Kruskal-Wallis, berikut hipotesisnya:

Gambar oleh penulis

Dalam hal ini, K-statistik digunakan:

Gambar oleh penulis

dimana, n= jumlah jumlah titik data dalam semua sampel, j=sampel j, dan Rj= jumlah rangking semua titik data dalam sampel j.

3. Satu sampel menjalankan tes

Sebagian besar waktu, kami berasumsi bahwa sampel telah dipilih secara acak. Namun, ini mungkin tidak selalu benar. Asumsikan sebuah skenario di mana kita harus mengambil sampel bola merah dan hijau dari kantong yang penuh dengan banyak bola. Kami datang dengan sampel di bawah ini ( Green-G, Red-R):

RRR GGG RRR GGG RR GG

Sampel di atas mungkin tidak dihasilkan secara acak. Untuk menguji sampel untuk keacakan mereka, kami telah menjalankan tes.

Di sini, hipotesis nolnya adalah bahwa item (yaitu, bola) dicampur secara acak, dan hipotesis alternatifnya adalah bahwa item tersebut tidak dicampur secara acak.

Run adalah urutan kejadian yang sama. Dalam contoh di atas, RRR adalah lari, dan GG juga lari.

4. Korelasi Peringkat

Korelasi peringkat menggabungkan gagasan korelasi dan peringkat bersama, di mana ia dapat mengukur korelasi antara dua set peringkat dalam hal kesamaan di antara mereka.

Jika kita memiliki daftar enam negara dan peringkat mereka dalam hal PDB ( Produk Domestik Bruto) dan HDI ( Indeks Pembangunan Manusia), korelasi peringkat dihitung sebagai:

gambar oleh penulis

di mana d = perbedaan antara peringkat antara setiap pasangan negara, n = jumlah pengamatan berpasangan ( ini dia enam). Nilai 1 mewakili hubungan yang sempurna antara dua variabel. Di sini, hipotesis nol menyatakan bahwa tidak ada korelasi dalam data peringkat populasi dan hipotesis alternatif menyatakan bahwa ada korelasi dalam data peringkat.

5. Tes Kolmogorov-Smirnov (KS)

Uji Kolmogorov-Smirnov digunakan dalam kasus di mana kita ingin menguji apakah ada perbedaan yang signifikan antara dua sampel atau jika distribusi frekuensi yang diamati sama dengan distribusi teoritis. Artinya tes ini dapat digunakan untuk mengukur goodness of fit, sangat mirip dengan tes Chi-Square. Menggunakan distribusi kumulatif, itu memutuskan distribusi spesifik dari populasi.

Selain jenis-jenis di atas, masih banyak lagi pengujian lainnya, seperti uji Kuiper, uji Tukey–Duckworth, uji log-rank, dan lain-lain.

Aplikasi

Tes ini dapat diterapkan pada situasi di mana manajer bisnis atau siapa pun harus membuat keputusan atau menguji beberapa asumsi. Tes non-parametrik banyak digunakan dalam kasus ketika asumsi yang terkait dengan data khusus untuk tes parametrik tidak terpenuhi, ukuran sampel cukup kecil, dan datanya nominal atau ordinal seperti urutan peringkat.

Catatan tambahan: Model non-parametrik dalam pembelajaran mesin

Demikian pula, algoritma non-parametrik tidak membuat asumsi tentang hubungan antara data input dan output. Algoritma non-parametrik tidak memiliki jumlah parameter yang tetap tetapi bergantung pada jumlah data latih. Regresi linier adalah contoh dari algoritma parametrik, dan K-tetangga terdekat adalah contoh dari algoritma non-parametrik.

Ikuti saya (kumarkaushal.bit) untuk topik menarik lainnya terkait Ilmu Data dan Statistik.

Referensi

Statistik 101- Bagian 3- Statistik Non-parametrik, Jenisnya, dan Aplikasinya awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Jonathan Kelly