1 dataset result for Music Generation AND Music AND English

MusicCaps is a dataset composed of 5.5k music-text pairs, with rich text descriptions provided by human experts. For each 10-second music clip, MusicCaps provides:

37 PAPERS • 1 BENCHMARK