Search Results for author: Rundong Gao

Found 7 papers, 6 papers with code

LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation?

1 code implementation • 16 Apr 2024 • Yuchi Wang, Shuhuai Ren, Rundong Gao, Linli Yao, Qingyan Guo, Kaikai An, Jianhong Bai, Xu sun

Diffusion models have exhibited remarkable capabilities in text-to-image generation.

Image Captioning Text Generation +1

Paper
Code

Towards Multimodal Video Paragraph Captioning Models Robust to Missing Modality

1 code implementation • 28 Mar 2024 • Sishuo Chen, Lei LI, Shuhuai Ren, Rundong Gao, Yuanxin Liu, Xiaohan Bi, Xu sun, Lu Hou

Video paragraph captioning (VPC) involves generating detailed narratives for long videos, utilizing supportive modalities such as speech and event boundaries.

Data Augmentation Video Understanding

Paper
Code

VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models

1 code implementation • 29 Nov 2023 • Shicheng Li, Lei LI, Shuhuai Ren, Yuanxin Liu, Yi Liu, Rundong Gao, Xu sun, Lu Hou

The ability to perceive how objects change over time is a crucial ingredient in human intelligence.

counterfactual

Paper
Code

FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation

1 code implementation • NeurIPS 2023 • Yuanxin Liu, Lei LI, Shuhuai Ren, Rundong Gao, Shicheng Li, Sishuo Chen, Xu sun, Lu Hou

The multi-aspect categorization of FETV enables fine-grained analysis of the metrics' reliability in different scenarios.

Text-to-Video Generation Video Generation

Paper
Code

Holistic Sentence Embeddings for Better Out-of-Distribution Detection

1 code implementation • 14 Oct 2022 • Sishuo Chen, Xiaohan Bi, Rundong Gao, Xu sun

On the basis of the observations that token averaging and layer combination contribute to improving OOD detection, we propose a simple embedding approach named Avg-Avg, which averages all token representations from each intermediate layer as the sentence embedding and significantly surpasses the state-of-the-art on a comprehensive suite of benchmarks by a 9. 33% FAR95 margin.

Avg Out-of-Distribution Detection +4