Publications

(*: equal contribution)

Preprints

Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning
Chengzu Li*, Zanyi Wang*, Jiaang Li*, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen
arxiv.

How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing
Huanyu Zhang*, Xuehai Bai*, Chengzu Li*, Chen Liang, Haochen Tian, Haodong Li, Ruichuan An, Yifan Zhang, Anna Korhonen, Zhang Zhang, Liang Wang, Tieniu Tan
arxiv.

Latent Sketchpad: Autoregressive Visual Latent Generation for Interpretable Visual Thoughts in MLLMs
Huanyu Zhang*, Wenshan Wu*, Chengzu Li, Ning Shang, Yan Xia, Yangyu Huang, Yifan Zhang, Li Dong, Zhang Zhang, Liang Wang, Tieniu Tan, Furu Wei
arxiv.

11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis
Chengzu Li, Wenshan Wu, Huanyu Zhang, Qingtao Li, Zeyu Gao, Yan Xia, José Hernández-Orallo, Ivan Vulić, Furu Wei
arxiv.

Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes
Huanyu Zhang*, Chengzu Li*, Wenshan Wu, Shaoguang Mao, Yan Xia, Ivan Vulić, Zhang Zhang, Liang Wang, Tieniu Tan, Furu Wei
arXiv.

Reinforcement Learning for Better Verbalized Confidence in Long-Form Generation
Caiqi Zhang*, Xiaochen Zhu*, Chengzu Li, Nigel Collier, Andreas Vlachos
arXiv.

2026

Visual Planning: Let's Think Only with Images
Yi Xu*, Chengzu Li*, Han Zhou*, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
ICLR 2026 (oral). [code] [机器之心] [量子位]

Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li, Sizhe Dang, Chengzu Li, Harry Yang, Guang Dai, Mengmeng Wang, Jingdong Wang
ICLR 2026. [code]

2025

Imagine while Reasoning in Space: Multimodal Visualization-of-Thought
Chengzu Li*, Wenshan Wu*, Huanyu Zhang, Yan Xia, Shaoguang Mao, Li Dong, Ivan Vulić, Furu Wei
ICML 2025. [code] [IEEE Spectrum] [TWIML Podcast] [新智元]

Large Language Models are Miscalibrated In-Context Learners
Chengzu Li, Han Zhou, Goran Glavaš, Anna Korhonen, Ivan Vulić.
ACL 2025, Findings. [code]

Enriching Patent Claim Generation with European Patent Dataset
Lekang Jiang, Chengzu Li, Stephan Goetz
EMNLP 2025, Findings.

Lost in Embeddings: Information Loss in Vision-Language Models
Wenyan Li, Raphael Tang, Chengzu Li, Caiqi Zhang, Ivan Vulić, Anders Søgaard
EMNLP 2025 Findings.

2024

TopViewRS: Vision-Language Models as Top-View Spatial Reasoners
Chengzu Li*, Caiqi Zhang*, Han Zhou, Nigel Collier, Anna Korhonen, Ivan Vulić
EMNLP 2024, main (oral). [project website] [code] [data]

Semantic Map-based Generation of Navigation Instructions
Chengzu Li, Chao Zhang, Simone Teufel, Rama Sanand Doddipatla, Svetlana Stoyanchev.
COLING-LREC 2024. [code]

2023

Generating Data for Symbolic Language with Large Language Models
Jiacheng Ye, Chengzu Li, Lingpeng Kong, Tao Yu.
EMNLP 2023, main. [code]

Binding Language Models in Symbolic Languages
Zhoujun Cheng, Tianbao Xie, Peng Shi, Chengzu Li, Rahul Nadkarni, Yushi Hu, Caiming Xiong, Dragomir Radev, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu.
ICLR 2023 (spotlight). [code]

2022

UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models
Tianbao Xie, Chen Henry Wu, Peng Shi, Ruiqi Zhong, Torsten Scholak, Michihiro Yasunaga, Chien-Sheng Wu, Ming Zhong, Pengcheng Yin, Sida I. Wang, Victor Zhong, Bailin Wang, Chengzu Li, Connor Boyle, Ansong Ni, Ziyu Yao, Dragomir Radev, Caiming Xiong, Lingpeng Kong, Rui Zhang, Noah A. Smith, Luke Zettlemoyer, Tao Yu.
EMNLP 2022, main (oral). [code