Search Results for author: Qiushi Huang

Found 13 papers, 11 papers with code

Sequential Prediction of Social Media Popularity with Deep Temporal Context Networks

1 code implementation • 12 Dec 2017 • Bo Wu, Wen-Huang Cheng, Yongdong Zhang, Qiushi Huang, Jintao Li, Tao Mei

With a joint embedding network, we obtain a unified deep representation of multi-modal user-post data in a common embedding space.

Social Media Popularity Prediction

Paper
Code

Token-Level Supervised Contrastive Learning for Punctuation Restoration

1 code implementation • 19 Jul 2021 • Qiushi Huang, Tom Ko, H Lilian Tang, Xubo Liu, Bo Wu

Punctuation is critical in understanding natural language text.

Automatic Speech Recognition Automatic Speech Recognition (ASR) +6

Paper
Code

Conditional Sound Generation Using Neural Discrete Time-Frequency Representation Learning

1 code implementation • 21 Jul 2021 • Xubo Liu, Turab Iqbal, Jinzheng Zhao, Qiushi Huang, Mark D. Plumbley, Wenwu Wang

We evaluate our approach on the UrbanSound8K dataset, compared to SampleRNN, with the performance metrics measuring the quality and diversity of generated sounds.

Music Generation Representation Learning +1

Paper
Code

CL4AC: A Contrastive Loss for Audio Captioning

2 code implementations • 21 Jul 2021 • Xubo Liu, Qiushi Huang, Xinhao Mei, Tom Ko, H Lilian Tang, Mark D. Plumbley, Wenwu Wang

Automated Audio captioning (AAC) is a cross-modal translation task that aims to use natural language to describe the content of an audio clip.

Audio captioning Translation

Paper
Code

Audio Captioning Transformer

1 code implementation • 21 Jul 2021 • Xinhao Mei, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang

In this paper, we propose an Audio Captioning Transformer (ACT), which is a full Transformer network based on an encoder-decoder architecture and is totally convolution-free.

Ranked #8 on Audio captioning on AudioCaps

AudioCaps Audio captioning

Paper
Code

An Encoder-Decoder Based Audio Captioning System With Transfer and Reinforcement Learning

1 code implementation • 5 Aug 2021 • Xinhao Mei, Qiushi Huang, Xubo Liu, Gengyun Chen, Jingqian Wu, Yusong Wu, Jinzheng Zhao, Shengchen Li, Tom Ko, H Lilian Tang, Xi Shao, Mark D. Plumbley, Wenwu Wang

Automated audio captioning aims to use natural language to describe the content of audio data.

Audio captioning reinforcement-learning +2

Paper
Code

Leveraging Pre-trained BERT for Audio Captioning

no code implementations • 6 Mar 2022 • Xubo Liu, Xinhao Mei, Qiushi Huang, Jianyuan Sun, Jinzheng Zhao, Haohe Liu, Mark D. Plumbley, Volkan Kılıç, Wenwu Wang

BERT is a pre-trained language model that has been extensively used in Natural Language Processing (NLP) tasks.

AudioCaps Audio captioning +1

Paper
Add Code

Separate What You Describe: Language-Queried Audio Source Separation

1 code implementation • 28 Mar 2022 • Xubo Liu, Haohe Liu, Qiuqiang Kong, Xinhao Mei, Jinzheng Zhao, Qiushi Huang, Mark D. Plumbley, Wenwu Wang

In this paper, we introduce the task of language-queried audio source separation (LASS), which aims to separate a target source from an audio mixture based on a natural language query of the target source (e. g., "a man tells a joke followed by people laughing").

AudioCaps Audio Source Separation

126

Paper
Code

Personalized Dialogue Generation with Persona-Adaptive Attention

1 code implementation • 27 Oct 2022 • Qiushi Huang, Yu Zhang, Tom Ko, Xubo Liu, Bo Wu, Wenwu Wang, Lilian Tang

Persona-based dialogue systems aim to generate consistent responses based on historical context and predefined persona.

Dialogue Generation

Paper
Code

Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention

1 code implementation • 28 Oct 2022 • Xubo Liu, Qiushi Huang, Xinhao Mei, Haohe Liu, Qiuqiang Kong, Jianyuan Sun, Shengchen Li, Tom Ko, Yu Zhang, Lilian H. Tang, Mark D. Plumbley, Volkan Kılıç, Wenwu Wang

Audio captioning aims to generate text descriptions of audio clips.

AudioCaps Audio captioning +1

Paper
Code

WavJourney: Compositional Audio Creation with Large Language Models

1 code implementation • 26 Jul 2023 • Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang

Subjective evaluations demonstrate the potential of WavJourney in crafting engaging storytelling audio content from text.

Audio Generation

506

Paper
Code

Retrieval-Augmented Text-to-Audio Generation

no code implementations • 14 Sep 2023 • Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang

Despite recent progress in text-to-audio (TTA) generation, we show that the state-of-the-art models, such as AudioLDM, trained on datasets with an imbalanced class distribution, such as AudioCaps, are biased in their generation performance.

Ranked #2 on Audio Generation on AudioCaps

AudioCaps Audio Generation +2

Paper
Add Code

KICGPT: Large Language Model with Knowledge in Context for Knowledge Graph Completion

1 code implementation • 4 Feb 2024 • Yanbin Wei, Qiushi Huang, James T. Kwok, Yu Zhang

Knowledge Graph Completion (KGC) is crucial for addressing knowledge graph incompleteness and supporting downstream applications.

In-Context Learning Language Modelling +1

Paper
Code

Cannot find the paper you are looking for? You can Submit a new open access paper.