Image Synthesis – Towards AI

Image Synthesis – Towards AI

Author(s): Ainur Gainetdinov

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda membuat produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Dalam makalah ini, saya menyajikan metode untuk menghasilkan gambar sintetik untuk augmentasi wajah menggunakan GAN yang baru-baru ini disajikan.

Hambatan penting dalam pembelajaran mendalam adalah ketersediaan data. Pelatihan model yang efektif membutuhkan banyak data. Banyak teknik yang digunakan untuk penambahan dataset untuk meningkatkan jumlah contoh pelatihan. Augmentasi data tipikal mencakup serangkaian transformasi yang sangat terbatas seperti rotasi, refleksi, pemotongan, terjemahan, dan penskalaan gambar yang ada. Sedikit informasi tambahan dapat diperoleh dari perubahan kecil pada gambar. Augmentasi data sintetik adalah jenis augmentasi data baru yang canggih. Data sintetik berkualitas tinggi yang dihasilkan oleh model generatif memfasilitasi lebih banyak variabilitas dan memperkaya kumpulan data untuk lebih meningkatkan model.

Kemajuan besar model generatif menyediakan alat yang ampuh untuk pembuatan data baru dari distribusi yang terlatih. Secara matematis, model generatif bekerja sebagai berikut. Titik hitam di sisi kanan gambar 1 mewakili gambar dari distribusi data sebenarnya. Model generatif, yang berwarna kuning, memetakan distribusi unit gaussian ke dalam distribusi yang dihasilkan, yang berwarna hijau. Bentuk distribusi yang dihasilkan tergantung pada parameter model θ. Tujuan pelatihan adalah menemukan parameter θ, yang meminimalkan perbedaan antara distribusi data yang dihasilkan dan sebenarnya.

Gambar 1. Diagram skematik model generatif dari ini.

Di antara model generatif yang paling populer adalah Generative Adversarial Networks (GAN), Variational Autoencoder (VAE), dan model difusi. GAN terdiri dari dua model, generator dan diskriminator, yang bersaing satu sama lain sekaligus memperkuat satu sama lain. Diskriminator belajar untuk membedakan antara gambar input asli atau palsu, sedangkan generator belajar untuk menghasilkan sampel palsu yang tidak dapat dibedakan oleh diskriminator. VAE terdiri dari dua komponen: encoder dan decoder. Encoder menyandikan data input ke representasi laten, khususnya ke distribusi gaussian. Decoder menerjemahkan titik laten dari distribusi gaussian kembali ke ruang data. Model difusi secara progresif menambahkan noise gaussian ke data, lalu belajar membalikkan proses ini untuk pembuatan sampel.

Mari kita lihat bagaimana kita bisa menggunakan GAN untuk augmentasi gambar. Terkadang tidak mungkin atau melelahkan untuk mendapatkan kumpulan data yang besar, beragam, dan berkualitas. Sangat bermanfaat untuk melatih GAN pada data terbatas tersebut sebelum melatih model untuk tugas-tugas seperti klasifikasi, deteksi objek, segmentasi, dll. Setelah melatih model, kita dapat menghasilkan data sebanyak yang kita inginkan. Tentu saja, keragaman sintesis semacam itu terbatas karena GAN kami yang terlatih hanya mereplikasi data pelatihan. Masalah yang cukup berbeda jika kita menyempurnakan GAN pra-pelatihan pada kumpulan data yang lebih besar. Dalam hal ini, GAN terlatih sebelumnya dapat menghasilkan data yang kaya dan beragam. Langkah fine-tuning mempelajari distribusi data pelatihan sambil mempertahankan properti model pra-pelatihan jika distribusi data pra-pelatihan dan pelatihan cukup dekat. Ini memungkinkan Anda untuk secara kualitatif meningkatkan ukuran kumpulan data dengan beberapa kali lipat.

Properti yang berguna dari GAN adalah kemampuan untuk memanipulasi proses pembuatan gambar. Mari kita lihat GAN paling populer di bidang pembuatan wajah manusia — StyleGan[1]. Alih-alih langsung memetakan noise gaussian input 512-dimensi ke gambar, itu memetakannya ke kode laten perantara dari dimensi yang sama. Neural net belajar mengurai representasi wajah dan menciptakan ruang laten yang bermakna. Ini memungkinkan manipulasi wajah manusia. Ada arah di ruang laten ini yang sesuai dengan modifikasi wajah seperti jenis kelamin, potongan rambut, emosi, bentuk, dll. Memvariasikan kode laten ke arah tertentu, kami mengubah gambar yang dihasilkan masing-masing.

Model generatif lainnya SemanticStyleGAN[2] memberikan kontrol pembuatan setiap bagian semantik wajah seperti bentuk, warna, mata, alis, mulut, hidung, rambut, latar belakang, dll. Penulis menyarankan untuk menggunakan kode laten yang berbeda untuk setiap bagian wajah dengan generator lokal yang sesuai untuk setiap kode laten. Generator lokal memetakan kode laten menjadi bagian wajah dengan topeng kedalaman, dan kemudian digabungkan menjadi satu gambar. Ini memberikan kontrol lokal yang lebih tepat atas gambar wajah yang ditunjukkan pada gambar 2.

Gambar 2. SemanticStyleGAN[2] hasil modifikasi ruang laten dari ini.

Proses augmentasi terlihat sebagai berikut. Kami mengambil gambar yang dihasilkan dari distribusi unit gaussian atau membalikkan foto wajah apa pun ke ruang laten. Pembalikan dapat dilakukan dengan algoritma optimisasi. Untuk kesamaan lengkap antara gambar kami dan terbalik, kami dapat menyempurnakan GAN pada kode laten yang dihitung untuk sekitar 300 iterasi. Sekarang kita dapat mengubah semantik wajah dengan mencampurkan kode laten kita dengan kode laten wajah lain. Misalnya, jika kita menyelesaikan masalah pengenalan wajah, kita akan tertarik untuk mempertahankan identitas dan menambahkan modifikasi pada kondisi pencahayaan dan potongan rambut. Untuk tujuan ini, kami membekukan semua kode laten kecuali yang bertanggung jawab atas petir dan potongan rambut dan memvariasikannya seperti yang ditunjukkan pada gambar 3, dan 4.

Gambar 3. Augmentasi petir wajah yang disintesis. Gambar oleh penulis.Gambar 4. Augmentasi potongan rambut wajah yang disintesis. Gambar oleh penulis.

Kemampuan model generatif untuk mensintesis gambar beragam yang masuk akal membuka peluang baru untuk meningkatkan kinerja model pembelajaran mendalam. Pada artikel ini, kita berbicara tentang beberapa metode bagaimana kita dapat menggunakan GAN untuk augmentasi data wajah.

Terima kasih telah membaca. Saya harap ini membantu Anda meningkatkan model Anda.

Referensi:

Arsitektur Generator Berbasis Gaya untuk Jaringan Musuh Generatif. Tero Karras, Samuli Laine, Timo Aila. SemanticStyleGAN: Mempelajari Prior Generatif Komposisional untuk Sintesis dan Pengeditan Gambar yang Dapat Dikontrol. Yichun Shi, Xiao Yang, Yangyue Wan, Xiaohui Shen. Situs proyek SemanticStyleGAN: https://semanticstylegan.github.io

Augmentasi Data Wajah. Bagian 2: Sintesis Gambar awalnya diterbitkan di Towards AI on Medium, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Jonathan Kelly