2 dataset results for Cross-Modal Retrieval AND Audio

SoundingEarth

SoundingEarth consists of co-located aerial imagery and audio samples all around the world.

5 PAPERS • 1 BENCHMARK

Song Describer Dataset

The Song Describer Dataset (SDD) contains ~1.1k captions for 706 permissively licensed music recordings. It is designed for use in evaluation of models that address music-and-language (M&L) tasks such as music captioning, text-to-music generation and music-language retrieval.

1 PAPER • NO BENCHMARKS YET

Datasets

2 dataset results for Cross-Modal Retrieval AND Audio