BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

01/07/2025

Daily Paper Cast

0:00

22:20

🤗 Upvotes: 46 | cs.GR, cs.CV

Authors:
Jiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo

Title:
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

Arxiv:
http://arxiv.org/abs/2506.17450v2

Abstract:
We present BlenderFusion, a generative visual compositing framework that synthesizes new scenes by recomposing objects, camera, and background. It follows a layering-editing-compositing pipeline: (i) segmenting and converting visual inputs into editable 3D entities (layering), (ii) editing them in Blender with 3D-grounded control (editing), and (iii) fusing them into a coherent scene using a generative compositor (compositing). Our generative compositor extends a pre-trained diffusion model to process both the original (source) and edited (target) scenes in parallel. It is fine-tuned on video frames with two key training strategies: (i) source masking, enabling flexible modifications like background replacement; (ii) simulated object jittering, facilitating disentangled control over objects and camera. BlenderFusion significantly outperforms prior methods in complex compositional scene editing tasks.

D'autres épisodes de "Daily Paper Cast"

Plus d'épisodes

Découvrez le meilleur des podcasts sur l'application GetPodcast.

Abonnez-vous à tous vos podcasts préférés, écoutez les épisodes sans connexion internet et recevez des recommandations de podcasts passionnants.

BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

Daily Paper Cast

D'autres épisodes de "Daily Paper Cast"

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings

Radial Attention: $O(n\log n)$ Sparse Attention with Energy Decay for Long Video Generation

Ovis-U1 Technical Report

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

Calligrapher: Freestyle Text Image Customization

BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing