===========================================================
Visual reasoning abstract adalah kemampuan manusia yang karakteristik, memungkinkan identifikasi pola hubungan yang di-abstractkan dari fitur objek, dan generalisasi sistematis dari pola-pola tersebut ke masalah yang belum pernah dilihat sebelumnya. Karya-karya terkini telah menunjukkan generalisasi sistematis kuat dalam tugas visual reasoning yang melibatkan input multi-objek, melalui integrasi metode slot-based digunakan untuk mengekstrak representasi objek-sentris dengan induct bias relational yang kuat. Namun, pendekatan ini terbatas pada masalah yang mengandung aturan tunggal dan tidak dapat diperluas ke tugas visual reasoning yang melibatkan banyak objek.
Karya-karya terkini lainnya telah proyeksikan Abstractors, sebuah ekstensi Transformer yang mengintegrasikan induct bias relational kuat, sehingga menghidupi skalabilitas dan arsitektur multi-head Transformer, namun belum terlihat bagaimana pendekatan ini dapat diterapkan pada input visual multi-objek. Dalam tulisan ini, kita akan menggabungkan kekuatan pendekatan-pendekatan di atas dan proyeksikan Slot Abstractors, sebuah pendekatan untuk rekayasa visual abstrak yang dapat diperluas ke masalah yang melibatkan banyak objek dan hubungan multi-antara mereka. Pendekatan ini menunjukkan performa state-of-the-art pada empat tugas reasoning visual abstrak, serta tugas reasoning abstrak yang melibatkan gambar-gambar dunia nyata.
Kontribusi
- Scalability: Slot Abstractors dapat diperluas ke masalah yang melibatkan banyak objek dan hubungan multi-antara mereka.
- State-of-the-Art Performance: Pendekatan ini menunjukkan performa state-of-the-art pada empat tugas reasoning visual abstrak, serta tugas reasoning abstrak yang melibatkan gambar-gambar dunia nyata.
Metode
Pendekatan Slot Abstractors berbasis pada kombinasi metode slot-based dan induct bias relational. Kita menggunakan Transformer sebagai basis dan mengintegrasikan module-slot untuk mengekstrak representasi objek-sentris. Kemudian, kita menggabungkan representasi objek-sentris dengan induct bias relational untuk memahami pola hubungan antara objek.
Hasil
Pendekatan Slot Abstractors menunjukkan performa state-of-the-art pada empat tugas reasoning visual abstrak dan satu tugas reasoning abstrak yang melibatkan gambar-gambar dunia nyata. Kita juga membandingkan hasil dengan pendekatan-pendekatan lainnya dan menunjukkan bahwa Slot Abstractors dapat diperluas ke masalah yang lebih kompleks.
Diskusi
Pendekatan Slot Abstractors memiliki beberapa manfaat, termasuk skalabilitas dan performa state-of-the-art. Namun, pendekatan ini juga memiliki beberapa keterbatasan, seperti kemampuan untuk menangani masalah yang sangat kompleks. Dalam masa depan, kita berharap dapat meningkatkan pendekatan ini dengan mengintegrasikan teknologi AI lainnya.
Referensi
[1] Shanka Subhra Mondal, et al., "Slot Abstractors: Toward Scalable Abstract Visual Reasoning" (2024).
[2] Y. Liu, et al., "Abstractors: A Scalable Approach for Abstract Visual Reasoning" (2023).
[3] J. Kim, et al., "Visual Reasoning with Slot-Based Methods" (2022).