Multi-Modal Methods

Edit

Methods

Add a Method

Method	Year	Papers
GLIDE GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models	2021	19
UNIMO UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning	2020	4
EmbraceNet EmbraceNet: A robust deep learning architecture for multimodal classification	2019	4
Vokenization Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision	2020	3
CTAL CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations	2021	2
VATT VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text	2021	2
MAVL Class-agnostic Object Detection with Multi-modal Transformer	2021	2
SyCoCa SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment	2024	2
AVSlowFast Audiovisual SlowFast Networks for Video Recognition	2020	1
PO3D-VQA 3D-Aware Visual Question Answering about Parts, Poses and Occlusions	2023	1