LONG Group @ HKUST CSE

^#LONG Group Members

2026

Direct Product Flow Matching: Decoupling Radial and Angular Dynamics for Few-Shot Adaptation

Hongxu Chen^#, Yanghao Wang^#, Bowei Zhu, Hongxiang Li^#, Zhen Wang^#, Ziqi Jiang^#, Lin Li^#, Rui Liu, and Long Chen^#.

ArXiv Preprint

Paper

SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

Yaoyang Liu^#, Yuechen Zhang, Wenbo Li, Yufei Zhao, Rui Liu, and Long Chen^#.

ArXiv Preprint

Paper Code Website

MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization

Chenyang Zhu^#, Hongxiang Li^#, Xiu Li, and Long Chen^#.

ArXiv Preprint

Paper Code Website

Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Yanghao Wang^#, Ziqi Jiang^#, Zhen Wang^#, and Long Chen^#.

ArXiv Preprint

Paper Code

Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation

Wei Chen^#, Yancheng Long, Mingqiao Liu, Haojie Ding, Yankai Yang, Hongyang Wei, Yi-Fan Zhang, Bin Wen, Fan Yang, Tingting Gao, Han Li, and Long Chen^#.

ArXiv Preprint

Paper Website

Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning

Dingkun Zhang, Shuhan Qi, Yulin Wu, Xinyu Xiao, Xuan Wang, and Long Chen^#.

ArXiv Preprint

Paper Code

Bi-Anchor Interpolation Solver for Accelerating Generative Modeling

Hongxu Chen^#, Hongxiang Li^#, Zhen Wang^#, and Long Chen^#.

International Conference on Machine Learning (ICML)

Paper Code

Path-Decoupled Hyperbolic Flow Matching for Few-Shot Adaptation

Lin Li^#, Ziqi Jiang^#, Gefan Ye, Zhenqi He^#, Jiahui Li, Jun Xiao, Kwang-Ting Cheng, and Long Chen^#.

International Conference on Machine Learning (ICML)

Paper

LLM-Guided Diagnostic Evidence Alignment for Medical Vision–Language Pretraining under Limited Pairing

Huimin Yan^#, Liang Bai, Xian Yang, and Long Chen^#.

International Conference on Machine Learning (ICML)

Paper

Better, Stronger, Faster: Tackling the Trilemma in MLLM-based Segmentation with Simultaneous Textual Mask Prediction

Jiazhen Liu^#, Mingkuan Feng, and Long Chen^#.

Computer Vision and Pattern Recognition (CVPR)

Paper Code

FlowComposer: Composable Flows for Compositional Zero-Shot Learning

Zhenqi He^#, Lin Li^#, and Long Chen^#.

Computer Vision and Pattern Recognition (CVPR)

Paper Code

FlowMotion: Training-Free Flow Guidance for Video Motion Transfer

Zhen Wang^#, Youcan Xu, Jun Xiao, and Long Chen^#.

Computer Vision and Pattern Recognition (CVPR)

Paper Code

FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing

Yilei Jiang, Zhen Wang^#, Yanghao Wang^#, Jun Yu, Yueting Zhuang, Jun Xiao, and Long Chen^#.

Computer Vision and Pattern Recognition (CVPR)

Paper Code

GIR-Bench: Versatile Benchmark for Generating Images with Reasoning

Hongxiang Li^#, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, and Long Chen^#.

International Conference on Learning Representations(ICLR)

Paper Code Website

Exploring Cross-Modal Flows for Few-Shot Learning

Ziqi Jiang^#, Yanghao Wang^#, and Long Chen^#.

International Conference on Learning Representations(ICLR)

Paper Code

Empowering Small VLMs to Think with Dynamic Memorization and Exploration

Jiazhen Liu^#, Yuchuan Deng, and Long Chen^#.

International Conference on Learning Representations(ICLR)

Paper Code

Relation-R1: Progressively Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relation Comprehension

Lin Li^*#, Wei Chen^*#, Jiahui Li, Kwang-Ting Cheng, and Long Chen^#.

AAAI Conference on Artificial Intelligence (AAAI)

Paper Code

2025

H2EM: Learning Hierarchical Hyperbolic Embeddings for Compositional Zero-Shot Learning

Lin Li^#, Jiahui Li, Jiaming Lei, Jun Xiao, Feifei Shao, and Long Chen^#.

ArXiv Preprint

Paper

Target-aware Image Editing via Cycle-consistent Constraints

Yanghao Wang^#, Zhen Wang^#, and Long Chen^#.

ArXiv Preprint

Paper Code

Zero-Residual Concept Erasure via Progressive Alignment in Text-to-Image Models

Hongxu Chen^#, Zhen Wang^#, Taoran Mei, Lin Li, Bowei Zhu, Runshi Li, and Long Chen^#.

ArXiv Preprint

Paper

Segmentation as a Plug-and-Play Capability for Frozen Multimodal LLMs

Jiazhen Liu^# and Long Chen^#.

ArXiv Preprint

Paper

Noise Matters: Optimizing Matching Noise for Diffusion Classifiers

Yanghao Wang^#, and Long Chen^#.

Neural Information Processing Systems (NeurIPS)

Paper Code

Decoupling Contrastive Decoding: Robust Hallucination Mitigation in Multimodal Large Language Models

Wei Chen^#, Xin Yan, Bin Wen, Fan Yang, Tingting Gao, Di Zhang, and Long Chen^#.

Neural Information Processing Systems (NeurIPS)

Paper

Compositional Zero-shot Learning via Progressive Language-based Observations

Lin Li^#, Guikun Chen, Jun Xiao, and Long Chen^#.

ACM International Conference on Multimedia (ACM MM)

Paper

SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation

Trung Kien Pham^#, Yingqing He, Yazhou Xing, Qifeng Chen, and Long Chen^#.

ACM International Conference on Multimedia (ACM MM)

Paper

Event-Customized Image Generation

Zhen Wang^#, Yilei Jiang, Dong Zheng, Jun Xiao, and Long Chen^#.

International Conference on Machine Learning (ICML)

Paper Code

Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing

Kaifeng Gao^#, Jiaxin Shi, Hanwang Zhang, Chunping Wang, Jun Xiao, and Long Chen^#.

International Conference on Machine Learning (ICML)

Paper

Taking A Closer Look at Interacting Objects: Interaction-Aware Open Vocabulary Scene Graph Generation

Lin Li^#, Chuhan Zhang, Dong Zhang, Chong Sun, Chen Li, and Long Chen^#.

ArXiv Preprint

Paper

IterIS: Iterative Inference-Solving Alignment for LoRA Merging

Hongxu Chen^#, Runshi Li, Bowei Zhu, Zhen Wang^#, and Long Chen^#.

Computer Vision and Pattern Recognition (CVPR)

Paper Code

Embracing Collaboration Over Competition: Condensing Multiple Prompts for Visual In-Context Learning

Jinpeng Wang^#, Tianci Luo, Yaohua Zha, Yan Feng, Ruisheng Luo, Bin Chen, Tao Dai, Long Chen^#, Yaowei Wang, and Shu-Tao Xia.

Computer Vision and Pattern Recognition (CVPR)

Paper

Inversion Circle Interpolation: Diffusion-based Image Augmentation for Data-scarce Classification

Yanghao Wang^#, and Long Chen^#.

Computer Vision and Pattern Recognition (CVPR)

Paper Code

CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation

Wei Chen^*#, Lin Li^*#, Yongqi Yang^*, Bin Wen, Fan Yang, Tingting Gao, Yu Wu, and Long Chen^#.

Computer Vision and Pattern Recognition (CVPR)

Paper Code

DisPose: Disentangling Pose Guidance for Controllable Human Image Animation

Hongxiang Li^#, Yaowei Li, Yuhang Yang, Junjie Gao, Zhihong Zhu, Xuxin Cheng, and Long Chen^#.

International Conference on Learning Representations (ICLR)

Paper

CLIPDrag: Combining Text-based and Drag-based Instructions for Image Editing

Ziqi Jiang^#, Zhen Wang^#, and Long Chen^#.

International Conference on Learning Representations (ICLR)

Paper Code

2024

Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing

Kaifeng Gao^#, Jiaxin Shi, Hanwang Zhang, Chunping Wang, Jun Xiao, and Long Chen^#.

ArXiv Preprint

Paper

A Survey on Multimodal Benchmarks: In the Era of Large AI Models

Lin Li^#, Guikun Chen, Hanrong Shi, Jun Xiao, and Long Chen^#.

ArXiv Preprint

Paper Code

FreeTuner: Any Subject in Any Style with Training-free Diffusion

Youcan Xu^*, Zhen Wang^*#, Jun Xiao, Wei Liu, and Long Chen^#.

ArXiv Preprint

Paper

DECap: Towards Generalized Explicit Caption Editing via Diffusion Mechanism

Zhen Wang^#, Xinyun Jiang, Jun Xiao, Tao Chen, and Long Chen^#.

European Conference on Computer Vision (ECCV)

Paper

An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual Grounding

Wei Chen^#, Long Chen^#, and Yu Wu.

European Conference on Computer Vision (ECCV)

Paper

Learning Combinatorial Prompts for Universal Controllable Image Captioning

Zhen Wang^#, Jun Xiao, Yueting Zhuang, Fei Gao, Jian Shao, and Long Chen^#

International Journal of Computer Vision (IJCV)

Paper

From Easy to Hard: Learning Curricular Shape-aware Features for Robust Panoptic Scene Graph Generation

Hanrong Shi^*, Lin Li^*#, Jun Xiao, Yueting Zhuang, and Long Chen^#.

International Journal of Computer Vision (IJCV)

Paper

A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future

Chaoyang Zhu^#, and Long Chen^#.

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Paper

NICEST: Noisy Label Correction and Training for Robust Scene Graph Generation

Lin Li^#, Jun Xiao, Hanrong Shi, Hanwang Zhang, Yi Yang, Wei Liu, and Long Chen^#

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Paper Code

2023

Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models

Lin Li^#, Jun Xiao, Guikun Chen, Jian Shao, Yueting Zhuang, and Long Chen^#.

Neural Information Processing Systems (NeurIPS)

Paper Code

Compositional Feature Augmentation for Unbiased Scene Graph Generation

Lin Li^#, Guikun Chen, Jun Xiao, Yi Yang, Chunping Wang, and Long Chen^#.

International Conference on Computer Vision (ICCV)

Paper Code

Counterfactual Samples Synthesizing and Training for Robust Visual Question Answering

Long Chen^*#, Yuhang Zheng^*, Yulei Niu, Hanwang Zhang, and Jun Xiao.

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Paper