What You Need to Know – Towards AI

What You Need to Know – Towards AI

Pentingnya Teorema Limit Pusat dalam Inferensi Statistik

Foto oleh Tomas Eidsvold di Unsplash

Kalaupun tidak normal, rata-rata normal!!!! –Josh Starmer

Teorema limit sentral adalah konsep fundamental dalam teori probabilitas dan statistik. Tetapi sebelum mendalami teorema limit pusat sebenarnya, Anda harus memiliki gagasan tentang distribusi normal. Saya telah menjelaskan distribusi normal dengan kata-kata yang sangat sederhana dan dengan contoh di blog di bawah ini. Anda bisa merujuknya untuk pengenalan. Jika Anda terbiasa dengan distribusi normal, Anda dapat melewati tautan dan paragraf di bawah ini.

Ada dua hal penting yang menggambarkan distribusi normal.

Rata-Rata — Ini adalah nilai rata-rata dari semua titik dalam sampel yang dihitung dengan menjumlahkan nilainya, lalu membaginya dengan jumlah total nilai dalam sampel. Deviasi Standar — Ini menunjukkan seberapa banyak kumpulan data menyimpang dari rata-rata sampel.

Distribusi normal

Distribusi normal ditentukan oleh dua parameter rata-rata dan varians. Distribusi normal dengan rata-rata 0 dan standar deviasi 1 disebut distribusi normal standar.

Distribusi normal adalah kurva berbentuk lonceng di mana rata-rata idealnya = mode = median.

Yang terpenting adalah distribusi normal [Image by Author]

Ketika distribusi data terkonsentrasi di pusat atau rata-rata dan nilainya menurun saat kita pergi ke sisi yang lebih tinggi atau lebih rendah, biasanya strukturnya berdistribusi normal. Jika kita memplotnya maka akan terlihat seperti lonceng[see above image] Karena itu, ini dikenal sebagai distribusi berbentuk lonceng.

Contoh

Dalam statistik, pengambilan sampel mengacu pada proses pemilihan subset individu atau pengamatan dari populasi yang lebih besar untuk membuat kesimpulan tentang populasi secara keseluruhan.

Individu atau pengamatan yang dipilih untuk menjadi bagian dari sampel harus mewakili populasi dari mana mereka diambil untuk memastikan bahwa kesimpulan yang dibuat berdasarkan sampel dapat digeneralisasikan ke seluruh populasi.

Pengambilan sampel statistik [Source: Wikipedia]

Cara termudah untuk menjelaskan: Saya memiliki 10 orang yang bermain kriket, 10 orang bermain bola basket, dan 10 orang bermain catur. Saya ingin membuat komitmen untuk asosiasi olahraga jadi harus memilih 6 orang untuk mewakili olahraga. jadi untuk membuat komitmen tidak memihak, saya akan memilih 2–2 orang dari ketiga cabang olahraga tersebut. Pilihan itu akan acak [Even though there are methods to choose k sample but still this is random]. dan orang-orang terpilih itu akan dijadikan sampel dari semua ruang sampel siswa.

Variabel acak:

Statistik dan penambangan data berkaitan dengan data. Bagaimana kita menautkan ruang sampel dan peristiwa ke data? Tautan disediakan oleh konsep variabel acak.

Variabel acak adalah pemetaan,

X: Ω → R

yang menetapkan bilangan real X(ω) untuk setiap hasil ω.

Teorema limit sentral

Definisi dasar dari teorema limit pusat dapat dinyatakan sebagai,

“Jumlah atau rata-rata dari sejumlah besar variabel acak independen dan terdistribusi secara identik akan berdistribusi normal, terlepas dari distribusi yang mendasari variabel acak individu.”

Ini adalah pengambilan sampel acak dengan ukuran sampel 15 dan 50 penarikan dengan menjaga alfa 1.20 dan beta 1 [Image by author]

Teorema limit sentral memiliki tiga komponen utama.

Komponen pertama adalah persyaratan bahwa variabel acak independen dan terdistribusi secara identik. Ini berarti bahwa setiap variabel acak diambil dari distribusi probabilitas yang sama dan hasil dari satu variabel tidak mempengaruhi hasil dari variabel lainnya. Persyaratan ini memastikan bahwa perilaku variabel acak konsisten di seluruh sampel dan mengurangi efek outlier atau nilai ekstrim. Komponen kedua dari teorema limit sentral adalah persyaratan bahwa ukuran sampel besar. Ini berarti bahwa jumlah atau rata-rata variabel acak didasarkan pada sejumlah pengamatan yang signifikan. Dengan meningkatnya ukuran sampel, distribusi jumlah atau rata-rata menjadi lebih normal, terlepas dari distribusi yang mendasari variabel acak individu. Komponen ketiga dari teorema limit sentral adalah distribusi jumlah atau rata-rata variabel acak konvergen ke distribusi normal. Ini berarti bahwa dengan bertambahnya ukuran sampel, distribusi jumlah atau rata-rata menjadi lebih rapat mengelompok di sekitar rata-rata distribusi, dan bentuk distribusi menjadi lebih berbentuk lonceng.


Memvisualisasikan sampling dan sarana [Image by author]

Hukum bilangan besar mengatakan bahwa distribusi Xn bertumpuk mendekati µ. Ini tidak cukup untuk membantu kami memperkirakan pernyataan probabilitas tentang Xn. Untuk ini, kita memerlukan teorema limit sentral. Misalkan X1,…, Xn adalah iid dengan rata-rata µ dan varians σ2. Teorema limit pusat (CLT) mengatakan itu.

Xn = n−1 SUMMi*Xi memiliki distribusi mendekati Normal dengan rata-rata µ dan varian σ2/n. Hal ini luar biasa karena tidak ada yang diasumsikan tentang distribusi Xi, kecuali adanya mean dan varians.

Pernyataan probabilitas tentang Xn dapat didekati menggunakan distribusi Normal. Ini adalah pernyataan probabilitas yang kami dekati, bukan variabel acak itu sendiri.

Berbicara secara matematis [Image credits: All of statistics by Larry Wasserman book ]

Di mana kita saat ini menggunakan CLT?

Teorema limit sentral memiliki banyak aplikasi praktis. Salah satu aplikasi yang paling penting adalah pengujian hipotesis. [I am going to write a separate blog on hypothesis testing, but till then, you can refer attached link.]. Pengujian hipotesis melibatkan penggunaan sampel untuk membuat kesimpulan tentang suatu populasi. Teorema limit pusat memungkinkan kita membuat asumsi tentang distribusi rata-rata sampel, yang sering digunakan sebagai uji statistik dalam pengujian hipotesis. Misalnya, jika kita menguji apakah rata-rata populasi sama dengan nilai tertentu, kita dapat menggunakan teorema limit pusat untuk mengasumsikan bahwa distribusi rata-rata sampel mendekati normal, terlepas dari distribusi yang mendasari pengamatan individual.

Penerapan penting lainnya dari teorema limit sentral adalah dalam pendugaan selang kepercayaan. Interval kepercayaan digunakan untuk memperkirakan kisaran nilai di mana parameter populasi cenderung jatuh. Teorema limit pusat memungkinkan kita untuk mengasumsikan bahwa distribusi rata-rata sampel kira-kira normal, yang memungkinkan kita untuk membuat interval kepercayaan menggunakan sifat-sifat distribusi normal.

Teorema limit pusat juga memiliki aplikasi penting dalam pengendalian proses statistik. Kontrol proses statistik melibatkan pemantauan dan pengendalian proses untuk memastikan bahwa proses tersebut tetap dalam batas-batas tertentu. Teorema limit sentral memungkinkan kita untuk mengasumsikan bahwa distribusi rata-rata sampel kira-kira normal, yang memungkinkan kita menetapkan batas kontrol berdasarkan sifat-sifat distribusi normal.

Keterbatasan CLT

Meskipun aplikasinya luas, teorema limit pusat memiliki beberapa keterbatasan. Salah satu batasannya adalah asumsi bahwa variabel acak adalah independen dan terdistribusi secara identik. Dalam praktiknya, asumsi ini mungkin tidak selalu valid. Misalnya, dalam data deret waktu, pengamatan dapat dikorelasikan dari waktu ke waktu, yang melanggar asumsi independensi. Selain itu, teorema limit sentral mengasumsikan bahwa ukuran sampelnya besar. Dalam praktiknya, mungkin sulit atau mahal untuk mengumpulkan sampel besar, yang dapat membatasi kegunaan teorema limit sentral.

Kesimpulan,

Teorema limit sentral adalah konsep fundamental dalam teori probabilitas dan statistik. Ini menyatakan bahwa, dalam kondisi tertentu, jumlah atau rata-rata dari sejumlah besar variabel acak independen dan terdistribusi identik akan kira-kira terdistribusi secara normal, terlepas dari distribusi yang mendasari variabel acak individu. Teorema limit sentral memiliki banyak aplikasi penting, termasuk pengujian hipotesis, estimasi interval kepercayaan, dan kontrol proses statistik. Namun, ia memiliki beberapa keterbatasan, termasuk asumsi independensi dan ukuran sampel yang besar. Terlepas dari keterbatasan ini, teorema limit pusat tetap menjadi alat yang ampuh untuk menganalisis dan memahami data.

Author: Jonathan Kelly