The Ever-evolving Pre-training Tasks for Language Models – Towards AI

The Ever-evolving Pre-training Tasks for Language Models – Towards AI

Author(s): Harshit Sharma

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda membuat produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Self-Supervised Learning (SSL) adalah tulang punggung model bahasa pra-terlatih berbasis transformator, dan paradigma ini melibatkan penyelesaian tugas pra-pelatihan (PT) yang membantu dalam memodelkan bahasa alami. Artikel ini adalah tentang melihat sekilas semua tugas pra-pelatihan yang populer.

Fungsi kerugian di SSL
Fungsi kerugian di sini hanyalah jumlah kerugian tertimbang dari tugas pra-pelatihan individu yang dilatih oleh model.

Mengambil BERT sebagai contoh, kerugiannya adalah jumlah tertimbang dari MLM (Pemodelan Bahasa Bertopeng) dan NSP (Prediksi Kalimat Berikutnya)

Selama bertahun-tahun, ada banyak tugas pra-pelatihan yang muncul untuk memecahkan masalah tertentu. Kami akan meninjau 10 yang menarik dan populer beserta fungsi kerugiannya yang sesuai:

Pemodelan Bahasa Kausal (CLM) Pemodelan Bahasa Bertopeng (MLM) Deteksi Token yang Diganti (RTD) Deteksi Token Acak (STD) Substitusi Token Acak (RTS) Pemodelan Bahasa yang Ditukar (SLM) Pemodelan Bahasa Terjemahan (TLM) Pemodelan Bahasa Alternatif (ALM) Batas Kalimat Objective (SBO) Next Sentence Prediction (NSP)

(Fungsi kerugian untuk setiap tugas dan konten banyak dipinjam dari AMMUS : Survei Model Pretrained Berbasis Transformer dalam Pemrosesan Bahasa Alami)

Ini hanyalah Model Bahasa Searah yang memprediksi kata berikutnya berdasarkan konteksnya. Digunakan sebagai tugas pra-pelatihan di GPT-1 Kerugian untuk CLM didefinisikan sebagai:
Peningkatan dari Pemodelan Bahasa Kausal (CLM), karena CLM hanya mempertimbangkan konteks searah saat memprediksi teks, sedangkan MLM menggunakan konteks dua arah. Ini pertama kali digunakan sebagai tugas pra-pelatihan di BERT
Alih-alih menutupi token dengan [MASK]RTD mengganti token dengan token yang berbeda (menggunakan model generator) dan melatih model untuk mengklasifikasikan apakah token yang diberikan adalah token yang sebenarnya atau diganti (menggunakan model diskriminator) Memperbaiki lebih dari 2 kelemahan MLM berikut:

Kelemahan 1:
[MASK] token muncul saat pra-pelatihan tetapi tidak saat menyempurnakan — ini menciptakan ketidaksesuaian antara kedua skenario.
RTD mengatasi ini karena tidak menggunakan masking apa pun

Kelemahan 2:
Di MLM, sinyal pelatihan hanya diberikan 15% dari token karena kerugian dihitung hanya dengan menggunakan token bertopeng ini, tetapi di RTD, sinyal diberikan oleh semua token karena masing-masing diklasifikasikan sebagai “diganti” atau “asli”

RTD digunakan di ELECTRA sebagai tugas pra-pelatihan. Arsitektur ELECTRA ditunjukkan di bawah ini:
Arsitektur ELEKTRAMirip dengan RTD, namun token disini tergolong dikocok atau tidak, bukannya diganti atau tidak (ditampilkan di bawah)
Ilustrasi STD (dari kertas)Mencapai efisiensi sampel yang sama seperti di RTD dibandingkan dengan MLM Kerugian didefinisikan sebagai:
RTD menggunakan generator untuk merusak kalimat, yang mahal secara komputasi.
RTS melewati kerumitan ini dengan hanya mengganti 15% token menggunakan token dari kosa kata sambil mencapai akurasi yang sama dengan MLM, seperti yang ditunjukkan di sini.
SLM merusak urutan dengan mengganti 15% token dengan token acak. Ini mirip dengan MLM dalam hal mencoba memprediksi token yang rusak, tetapi bukannya menggunakan [MASK]token acak digunakan untuk menutupi Ini mirip dengan RTS dalam hal menggunakan token acak untuk merusak, tetapi tidak seperti RTS, ini tidak terlalu efisien, karena hanya 15% token yang digunakan untuk menyediakan sinyal pelatihan.
TLM juga dikenal sebagai MLM lintas bahasa, di mana inputnya adalah sepasang kalimat paralel (kalimat dari dua bahasa yang berbeda) dengan token yang disamarkan seperti dalam MLM Ini digunakan sebagai tugas pra-pelatihan di XLM, model lintas bahasa untuk mempelajari pemetaan lintas bahasa.
Ilustrasi TLM (dari kertas) TLM loss mirip dengan MLM loss:
Ini adalah tugas untuk mempelajari model bahasa lintas bahasa seperti TLM, di mana kalimat paralelnya dialihkan kode, seperti yang ditunjukkan di bawah ini:
Ilustrasi ALM: Langkah 1: Token dari x diganti dengan token dari y; Langkah 2: Sampel yang diperoleh kemudian disamarkan seperti MLM (gambar dari kertas)

Saat alih kode, beberapa frasa x diganti dari y, dan sampel yang diperoleh digunakan untuk melatih model.

Strategi masking mirip dengan MLM.
Melibatkan penyamaran rentang token yang berdekatan dalam sebuah kalimat dan kemudian menggunakan model untuk memprediksi token yang disamarkan berdasarkan representasi keluaran dari token batas
Langkah 1: token x5 hingga x8 disamarkan; Langkah 2: Representasi output dari token batas (x4 dan x9) digunakan untuk memprediksi token dari x5 hingga x9 (gambar dari kertas) Digunakan sebagai tugas pra-pelatihan di SpanBERT Loss didefinisikan sebagai:
Ini adalah tugas tingkat kalimat yang membantu model dalam mempelajari hubungan antar kalimat. Ini adalah tugas klasifikasi biner yang melibatkan identifikasi apakah kedua kalimat itu berurutan, menggunakan representasi keluaran dari [CLS] token. Pelatihan dilakukan dengan menggunakan sampel positif 50% dan sampel negatif 50% dimana kalimat kedua tidak berurutan dengan kalimat pertama.

Masih banyak tugas menarik lainnya yang terangkum dalam AMMUS!! Kudos kepada penulis, dan tolong baca jika Anda menemukan ini menarik)

Tugas Pra-pelatihan yang Terus Berkembang untuk Model Bahasa awalnya diterbitkan di Towards AI on Medium, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Jonathan Kelly