Generative Models for Computer Vision

3rd Workshop on Generative Models
for Computer Vision

CVPR 2025

8:45am - 5:00pm, Tuesday, June 11th, 2025 Grand A2, Music City Center, Nashville, Tennessee

Overview

Recent advances in generative modeling leveraging generative adversarial networks, auto-regressive models, neural fields and diffusion models have enabled the synthesis of near photorealistic images, drastically increasing the visibility and popularity of generative modeling across the computer vision research community. However, these impressive advances in generative modeling have not yet found wide adoption in computer vision for visual recognition tasks. In this workshop, we aim to bring together researchers from the fields of image synthesis and computer vision to facilitate discussions and progress at the intersection of those two subfields. We investigate the question: "How can visual recognition benefit from the advances in generative image modeling?". We invite a diverse set of experts to discuss their recent research results and future directions for generative modeling and computer vision, with a particular focus on the intersection between image synthesis and visual recognition. We hope this workshop will lay the foundation for future development of generative models for computer vision tasks.

Invited Speakers

Schedule

11th of June, 2025
8:45	Opening
9:00	Rana Hanocka: Data-Driven Neural Mesh Editing – without 3D Data
9:40	Yingnian Wu: SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
10:20	Coffee Break
10:40	Björn Ommer: Bitter Lesson 2.0 – Boosting the Efficiency & Control of Generative Models
11:20	Yiyi Liao: Towards Canonicalized 3D Generative Models
12:00	Lunch
13:00	Posters (ExHall D, poster boards #269 - #308)
14:00	Alan Yuille: 3D Compositional Generative Models
14:40	Jiatao Gu: Towards Spatial and Scalable Generative World Models
15:20	Coffee Break
15:40	Kaiming He: Towards End-to-End Generative Modeling
16:20	Zhuowen Tu: More or Less Bayesian with Diffusion Models?
17:00	Closing

Covered Topics

Submission site:

OpenReview

Author kit:

CVPR Author KIT

short papers

Not

Advances in generative image models
Inversion of generative image models
Training computer vision with realistic synthetic images
Benchmarking computer vision with generative models
Analysis-by-synthesis / render-and-compare approaches for visual recognition
Self-supervised learning with generative models
Adversarial attacks and defenses with generative models
Out-of-distribution generalization and detection with generative models
Ethical considerations in generative modeling, dataset and model biases

Important Dates

Event	Date (Anywhere on Earth)
Workshop paper submission deadline	April 25, 2025 ~~March 25, 2025~~
Decisions	April 30, 2025

Accepted Papers

#269 Diffusion Classifiers Understand Compositionality, but Conditions Apply [Paper]
Yujin Jeong, Arnas Uselis, Seong Joon Oh, Anna Rohrbach
#270 Objaverse++: Curated 3D Object Dataset with Quality Annotations [Paper]
Chendi Lin, Heshan Liu, Qunshu Lin, Zachary Bright, Shitao Tang, Yihui He, Minghao Liu, Ling Zhu, Cindy Le
#271 DICE: Discrete Inversion Enabling Controllable Editing for Masked Generative Models [Paper]
Xiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Martin Renqiang Min, Kang Li, Faez Ahmed, Akash Srivastava, Hongdong Li, Junzhou Huang, Dimitris N. Metaxas
#272 Where Do Erased Concepts Go in Diffusion Models? [Paper]
Kevin Lu, Nicky Kriplani, Rohit Gandikota, Minh Pham, David Bau, Chinmay Hegde, Niv Cohen
#273 MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes [Paper]
Ruijie Lu, Yixin Chen, Junfeng Ni, Baoxiong Jia, Yu Liu, Diwen Wan, Gang Zeng, Siyuan Huang
#274 "Principal Components" Enable A New Language of Images [Paper]
Xin Wen, Bingchen Zhao, Ismail Elezi, Jiankang Deng, Xiaojuan Qi
#275 How Useful is the Density Learned by GANs for Computer Vision? [Paper]
Roy Friedman, Yair Weiss
#276 Decompositional Neural Scene Reconstruction with Generative Diffusion Prior [Paper]
Junfeng Ni, Yu Liu, Ruijie Lu, ZiRui Zhou, Song-Chun Zhu, Yixin Chen, Siyuan Huang
#277 Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation [Paper]
Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
#278 M3Face: A Unified Multi-Modal Multilingual Framework for Human Face Generation and Editing [Paper]
Mohammadreza Mofayezi, Reza Alipour, Mohammad Ali Kakavand, Ehsaneddin Asgari
#279 WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation [Paper]
Daoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Yong Liang, Jiebo Luo, Shengda Luo
#280 TopoCellGen: Generating Histopathology Cell Topology with a Diffusion Model [Paper]
Meilong Xu, Saumya Gupta, Xiaoling Hu, Chen Li, Shahira Abousamra, Dimitris Samaras, Prateek Prasanna, Chao Chen
#281 EscherNet++: Simultaneous Amodal Completion and Scalable View Synthesis [Paper]
Xinan Zhang, Muhammad Zubair Irshad, Anthony Yezzi, Yi-Chang Tsai, Zsolt Kira
#282 Emergence and Evolution of Interpretable Concepts in Diffusion Models Through the Lens of Sparse Autoencoders [Paper]
Berk Tinaz, Zalan Fabian, Mahdi Soltanolkotabi
#283 An Image-to-Music Generation Framework Powered by An Algorithm-Driven Music Core [Paper]
Callie C. Liao, Duoduo Liao, Ellie L. Zhang
#284 Particle-based 6D Object Pose Estimation from Point Clouds using Diffusion Models [Paper]
Christian Möller, Niklas Funk, Jan Peters
#285 Learn Your Scales: Towards Scale-Consistent Generative Novel View Synthesis [Paper]
Fereshteh Forghani, Jason J. Yu, Tristan Aumentado-Armstrong, Konstantinos G. Derpanis, Marcus A. Brubaker
#286 Masks make discriminative models great again! [Paper]
Tianshi Cao, Marie-Julie Rakotosaona, Ben Poole, Federico Tombari, Michael Niemeyer
#287 VideoHandles: Editing 3D Object Compositions in Videos Using Video Generative Priors [Paper]
Juil Koo, Paul Guerrero, Chun-Hao P. Huang, Duygu Ceylan, Minhyuk Sung
#288 S3D: Sketch-Driven 3D Model Generation [Paper]
Hail Song, Wonsik Shin, Naeun Lee, Soomin Chung, Nojun Kwak, Woontack Woo
#289 Towards Efficient Vision Transformers for Perceptual Quality Assessment of Diffusion-Generated Images [Paper]
Shivam Bhardwaj, Tushar Shinde
#290 GaussianVAE: Adaptive Learning Dynamics of 3D Gaussians for High-Fidelity Super-Resolution [Paper]
Shuja Khalid, Mohamed Ibrahim, Yang Liu
#291 Fine-Grained Guidance for Image Generation [Paper]
Nguyen Xuan Nam, Hidetomo Sakaino
#292 HandsOnVLM: Vision-Language Models for Hand-Object Interaction Prediction [Paper]
Chen Bao, Jiarui Xu, Xiaolong Wang, Abhinav Gupta, Homanga Bharadhwaj
#293 Flow-Optimizer: Revealing an Optimizable Flow Latent Space via One-Step Inversion for Controlled Interpolation and Editing [Paper]
Yan Zheng, Yi Yang
#294 Bernoulli Priors as Efficient Denoising Guides for Diffusion Models [Paper]
Magdalena Proszewska, Nikolay Malkin, N. Siddharth
#295 Guiding Diffusion with Deep Geometric Moments: Balancing Fidelity and Variation [Paper]
Sangmin Jung, Utkarsh Nath, Yezhou Yang, Giulia Pedrielli, Joydeep Biswas, Amy Zhang, Hassan Ghasemzadeh, Pavan Turaga
#296 Scaled Momentum Guidance for Flow Models [Paper]
Wooyeol Baek, Seongdo Kim, Jinseong Kim, Jongyoo Kim
#297 FreSca: Scaling in Frequency Space Enhances Diffusion Models [Paper]
Chao Huang, Susan Liang, Yunlong Tang, Jing Bi, Li Ma, Yapeng Tian, Chenliang Xu
#298 Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models [Paper]
Ketan Suhaas Saichandran, Xavier Thomas, Prakhar Kaushik, Deepti Ghadiyaram
#299 Panoptic Diffusion Models: Co-generation of Images and Segmentation Maps [Paper]
Yinghan Long, Kaushik Roy
#300 Boosting Adversarial Transferability with a Generative Model Perspective [Paper]
Jongoh Jeong, Hunmin Yang, Kuk-Jin Yoon
#301 ConceptMix++: Leveling the Playing Field in Text-to-Image Benchmarking via Iterative Prompt Optimization [Paper]
Haosheng Gan, Berk Tinaz, Mohammad Shahab Sepehri, Zalan Fabian, Mahdi Soltanolkotabi
#302 Rectified CFG++ for Flow Based Models [Paper]
Shreshth Saini, Shashank Gupta, Alan C. Bovik
#303 Generative Defect Synthesis for Enhancing Industrial Anomaly Detection [Paper]
Avinash Kumar Sharma, Tushar Shinde
#304 Pixel-Aligned Multi-View Generation with Depth Guided Decoder [Paper]
Zhenggang Tang, Peiye Zhuang, Chaoyang Wang, Aliaksandr Siarohin, Yash Kant, Alexander Schwing, Sergey Tulyakov, Hsin-Ying Lee
#305 LumiNet: Latent Intrinsics Meets Diffusion Models for Indoor Scene Relighting [Paper]
Xiaoyan Xing, Konrad Groh, Sezer Karaoglu, Theo Gevers, Anand Bhattad
#306 Generative Modeling of Weights: Generalization or Memorization? [Paper]
Boya Zeng, Yida Yin, Zhiqiu Xu, Zhuang Liu
#307 Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis [Paper]
Woojung Han, Yeonkyung Lee, Chanyoung Kim, Kwanghyun Park, Seong Jae Hwang
#308 Visual Acoustic Fields [Paper]
Yuelei Li, Hyunjin Kim, Fangneng Zhan, Ri-Zhao Qiu, Mazeyu Ji, Xiaojun Shan, Xueyan Zou, Paul Liang, Hanspeter Pfister, Xiaolong Wang

Organizers

Overview

Invited Speakers

Kaiming He

Rana Hanocka

Yingnian Wu

Jiatao Gu

Björn Ommer

Zhuowen Tu

Yiyi Liao

Alan Yuille

Schedule

Covered Topics

Important Dates

Accepted Papers

Organizers

Adam Kortylewski

Fangneng Zhan

Tian Han

Jieneng Chen

Christian Theobalt

Alan Yuille