Logistic Regression Math Deduction – Towards AI

Logistic Regression Math Deduction – Towards AI

Author(s): Fernando Guzman

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda membuat produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Regresi logistik adalah algoritma pembelajaran mesin yang diawasi untuk membuat model yang digunakan untuk masalah klasifikasi biner secara konvensional. Bahkan dalam namanya, dikatakan regresi. Algoritma ini digunakan untuk melatih model untuk masalah klasifikasi.

Model ini juga telah mempertimbangkan representasi pertama dari neuron buatan mengingat alur kerjanya mensimulasikan neuron di mana ada array dengan nilai input dan bias, dan mereka diberi bobot oleh parameter yang menghasilkan sesuatu yang dikenal sebagai logit secara normal. diwakili oleh Z, dan hasil ini dilewatkan melalui fungsi sigmoid untuk mendapatkan prediksi, seperti pada gambar berikut:

Representasi Neuron Buatan

Hermeneutika dari algoritma ini sama dengan regresi linier tetapi dengan langkah tambahan yang akan kami jelaskan nanti. Algoritma ini didasarkan pada distribusi Bernoulli yang hanya memodelkan dua kemungkinan kasus, yaitu sukses atau gagal, dan ini juga alasan mengapa regresi logistik digunakan untuk menyelesaikan masalah klasifikasi biner, mengingat hanya ada dua kemungkinan keluaran. Mari kita ilustrasikan ini:

Model regresi logistik

Kemudian, untuk menyusun konsep regresi logistik yang jelas, kita akan memahami model ini sebagai garis yang mencoba mengidentifikasi garis pemisah dalam data yang hanya dapat memiliki dua keluaran yang mungkin. Sekarang kami memiliki gagasan global tentang algoritme regresi logistik, dan kami siap untuk masuk ke pengurangan matematika dari algoritme ini. Untuk itu perlu dipahami bahwa hermeneutika dari algoritma ini sama dengan regresi linier. Ini hanya memiliki langkah tambahan yaitu logit, yang mengubah sedikit semua persamaan yang digunakan dalam proses pelatihan model.

LOGIT

Secara sederhana, logit dalam regresi logistik adalah prediksi regresi linier, yang diwakili oleh ungkapan berikut:

fungsi logit

Lalu, mari kita jelaskan pengurangan bagaimana kita mendapatkan logit. Pertama, kita perlu memahami perbedaan antara dua konsep inti, yaitu probabilitas dan peluang, karena banyak orang yang mengacaukan keduanya seolah-olah keduanya sama. Probabilitas adalah seberapa besar kemungkinan suatu peristiwa akan terjadi, dan ganjil adalah proporsi antara probabilitas keberhasilan dan kegagalan. Ambil contoh lemparan koin. Probabilitas mendapatkan kepala atau ekor adalah 50% atau 0,5; Peluang di sisi lain, diberikan oleh ekspresi berikut:

Fungsi peluang

Di mana p mewakili probabilitas keberhasilan dan q adalah komplemen dari probabilitas. Jadi, dengan ungkapan ini, kami berasumsi bahwa peluang dalam contoh lemparan koin adalah sebagai berikut:

Aneh untuk lemparan koin

Sekarang setelah kita mengetahui perbedaan antara peluang dan probabilitas, kita siap untuk melanjutkan. Pengurangan untuk log dimulai pada ekspresi odds karena p adalah probabilitas keberhasilan dan komplemen adalah probabilitas kegagalan, tetapi seperti yang mungkin Anda perhatikan, ekspresi ini adalah fungsi non-linear yang tidak memiliki rentang keluaran yang sama seperti yang ditunjukkan dalam gambar berikut:

Rentang output untuk peluang

Lihat bahwa kemungkinan setiap output tidak terdistribusi secara merata. Untuk mengatasi ini, kita perlu menjadikan ekspresi odds sebagai fungsi linier dengan menerapkan fungsi logaritma natural. Dengan begitu, kita mencapai distribusi kemungkinan yang sama:

Ubah peluang menjadi fungsi linier

Sekarang, kita memiliki kemungkinan yang terdistribusi secara merata, dan ini sebenarnya adalah logit, tetapi dalam kasus regresi logistik, kita hanya mengambil probabilitas sebagai prediksi atau y_hat, yang hanya memiliki dua kemungkinan jawaban, 0 atau 1. Lalu, mari kita lihat ekspresi berikut, yang mewakili logit:

fungsi logit

Sekarang kami memiliki ekspresi logit, tetapi Anda mungkin bertanya-tanya bahwa ekspresi ini bukan ekspresi yang sama dengan prediksi regresi linier, yang kami katakan adalah logit di awal. Nah, ternyata itu adalah ekspresi yang sama, dan sebagai berikut:

Persamaan logit dengan prediksi regresi linier

Sekarang kita memiliki pengurangan untuk logit, kita dapat melanjutkan ke prediksi tetapi ingat ekspresi ini karena kita memerlukannya untuk pengurangan prediksi.

RAMALAN

Fungsi prediksi pada dasarnya adalah fungsi sigmoidal, ini muncul dari penerapan fungsi eksponensial ke ekspresi logit dan membuat beberapa operasi matematika yang ada di deduksi di bawah ini:

Pengurangan untuk rumus prediksi

Seperti yang Anda lihat, setelah menerapkan fungsi eksponensial, eksponensial Z atau logit menjadi fungsi awal dari peluang karena fungsi eksponensial dan logaritmik berlawanan, maka kami melakukan beberapa operasi aljabar hingga akhirnya berakhir di fungsi sigmoidal dari Z yang mana adalah prediksi untuk regresi logistik.

FUNGSI KEHILANGAN

Dalam hal ini, untuk mengukur tingkat kesalahan kami akan menggunakan metode kemungkinan maksimum, yang sangat mudah mengingat bahwa kami menggunakan algoritma klasifikasi biner berdasarkan distribusi Bernoulli karena pengurangan kemungkinan maksimum juga dimulai dengan distribusi Bernoulli, jadi mari kita lihat rumus Bernoulli:

Probabilitas Bernoulli

Untuk regresi logistik, kami menetapkan rumus ini dengan mengasumsikan p sebagai prediksi dan x adalah keluaran yang mungkin y diberikan sekumpulan data x seperti berikut ini:

Probabilitas Bernoulli untuk Regresi Logistik

Ini adalah ekspresi probabilitas untuk register tunggal dalam regresi logistik. Kita dapat menggeneralisasi ungkapan ini sebagai produk dari semua probabilitas kumpulan data sebagai berikut:

Ekspresi kemungkinan

Ekspresi yang baru saja kita kurangi adalah kemungkinan kumpulan data, tetapi seperti yang mungkin telah Anda lihat, ungkapan ini sangat sulit untuk dihitung saat kumpulan data bertambah besar. Untuk mengatasi ini, kita perlu meminimalkan ekspresi menggunakan fungsi logaritmik, dan kita berakhir dengan ekspresi berikut:

Ekspresi kemungkinan

Sekarang, Anda dapat melihat bahwa ini lebih mudah untuk dihitung, dan jika kita mengganti rumus Bernoulli untuk regresi logistik dalam ungkapan ini, kita akan mendapatkan rumus kemungkinan. Jadi, mari kita buat pengurangan:

Pengurangan untuk rumus Kemungkinan Maksimum

Kami berhasil !!, kami memiliki rumus kemungkinan maksimum untuk mengukur kesalahan dalam pelatihan model kami.

KETURUNAN GRADIEN

Sekarang kita memiliki hampir semua elemen untuk melatih model regresi logistik kita, tetapi masih ada penurunan gradien yang akan kita gunakan untuk mengoptimalkan parameter vektor model kita. Rumus penurunan gradien diberikan oleh:

Rumus umum Penurunan Gradien

Ini jelas merupakan penurunan gradien yang sama yang digunakan untuk optimalisasi parameter model apa pun, tetapi perbedaannya terletak pada gradien kesalahan. Untuk melihat mana rumus sebenarnya dari penurunan gradien untuk regresi logistik, kita perlu menemukan gradien kesalahan, dalam hal ini, gradien kemungkinan maksimum, yang dapat ditemukan menggunakan aturan rantai:

Aturan rantai

Mengikuti metode ini, kita perlu mendapatkan turunan dari error, prediksi, dan logit. Jadi, mari kita dapatkan:

Turunan kesalahanDerivatif prediksiTurunan logit

Perhatikan bahwa turunan prediksi akhirnya sama dengan turunan sigmoidal, dan turunan logit dapat ditemukan langsung dari rumus logit. Sekarang kita memiliki tiga turunan yang diperlukan, mari kita gantikan dalam aturan rantai untuk mendapatkan gradien dari kemungkinan maksimum:

Gradien kesalahan

Seperti yang Anda lihat, gradien kesalahan masih terlihat seperti gradien regresi linier, tetapi dalam kasus ini, pertimbangkan bahwa prediksi adalah fungsi yang berbeda, dan itulah satu-satunya hal yang membuat gradien regresi logistik berbeda dari regresi linier.

Sekarang kita memiliki gradien mari kita lihat penurunan gradien untuk regresi logistik, yang diwakili oleh ekspresi berikut:

Penurunan Gradien untuk Regresi Logistik

Dalam regresi linier, kami juga menyebutkan bahwa ada juga metode langsung untuk mengoptimalkan parameter; Ini bukan kasus untuk regresi logistik. Metode langsung tidak dapat digunakan untuk optimasi algoritma ini, satu-satunya metode yang tersedia adalah penurunan gradien.

IMPLEMENTASI REGRESI LOGISTIK

Kita sekarang siap dengan semua elemen untuk memahami implementasi dan pelatihan penuh dari model regresi logistik, jadi mari kita lihat ilustrasi berikutnya:

Proses Pelatihan Regresi Logistik

Seperti yang Anda lihat, prosesnya masih sama dengan regresi linier di mana kami memiliki dataset matriks sebagai input dan parameter vektor dimulai secara acak; Input ini dioperasikan oleh fungsi prediksi, kemudian kami mengukur kesalahan kami dengan fungsi kerugian kemudian berdasarkan hasil ini kami mengoptimalkan vektor parameter dengan penurunan gradien tetapi dalam kasus ini, prediksi diberikan oleh persamaan lain. Perhatikan juga bahwa kita telah menggunakan kemungkinan maksimum sebagai fungsi kerugian dibandingkan dengan artikel regresi linier, di mana kita menggunakan kesalahan kuadrat minimum sebagai fungsi kerugian. Ingatlah bahwa fungsi kerugian dan penurunan gradien keduanya menggunakan prediksi dalam ekspresinya; Jadi, karena fungsi prediksi telah berubah, kedua persamaan juga berubah karena fungsi prediksi.

REGRESI SOFTMAX

Ada juga algoritma pembelajaran mesin lain yang disebut regresi softmax atau regresi logistik multikelas. Ini merupakan perpanjangan dari regresi logistik biner tradisional; Versi ini mendefinisikan gagasan memiliki banyak hasil. Prosesnya pada dasarnya sama. Untuk tidak memperpanjang ini, kita hanya akan melihat perbedaannya.

Regresi logistik tradisional hanya memiliki satu logit karena prediksi hanya dapat memberikan dua kemungkinan keluaran, dalam hal ini, kami memiliki banyak keluaran, yang disebut kelas, dan untuk masing-masingnya, kami memiliki logit dan prediksi yang merupakan probabilitas; Kemudian, kita dapat berasumsi bahwa hasil akhir kita akan berupa vektor nilai probabilitas dimana jawaban yang dipilih adalah kelas dengan probabilitas tertinggi, seperti pada ilustrasi berikut:

Regresi Softmax

Dalam ilustrasi ini, kita dapat melihat bahwa parameter tidak lagi berupa vektor, melainkan matriks parameter; Inilah yang memungkinkan kami menghasilkan logit untuk setiap kelas yang diberikan yang direpresentasikan sebagai ekspresi berikut:

Logits untuk banyak kelas

Dalam regresi logistik biner, setelah logit dihitung, kami mengoperasikan hasil ini dengan fungsi sigmoidal; Dalam kasus regresi softmax, setelah logit diperoleh, kami menghitung setiap logit dengan fungsi softmax alih-alih sigmoidal, inilah alasan mengapa versi ini disebut regresi softmax. Jadi, mari kita lihat bagaimana softmax direpresentasikan dalam bentuk matematisnya:

Fungsi softmax

Seperti yang Anda lihat, softmax adalah prediksi kami dan diberikan oleh persamaan ini di mana n adalah jumlah register atau baris, k adalah jumlah kelas dan Z adalah logit kami. Untuk melanjutkan, operasi ini untuk mendapatkan prediksi dibandingkan dengan regresi logistik biner di mana kita memiliki vektor dan produk matriks berubah menjadi produk dua matriks dan dihitung dengan fungsi softmax, seperti berikut:

Prediksi regresi softmax

Hal lain yang berubah dalam versi ini adalah fungsi kerugian. Kami telah mengurangi kemungkinan maksimum untuk mengukur kesalahan regresi logistik biner. Fungsi ini juga dikenal sebagai binary cross-entropy. Dalam kasus regresi softmax, ada juga perluasan persamaan ini untuk bekerja sebagai fungsi kerugian, yang disebut entropi silang kategorikal. Fungsi ini diberikan oleh ekspresi berikut:

Entropi lintas kategorikal

Dengan mengingat perubahan ini, Anda akan dapat menerapkan regresi softmax dengan proses regresi logistik biner yang sama.

Saya harap ini sangat berguna untuk Anda!!

Pengurangan Matematika Regresi Logistik awalnya diterbitkan di Menuju AI di Media, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Jonathan Kelly