ReasonEdit: Editing Vision-Language Models using Human Reasoning

About

Model editing aims to correct errors in large, pretrained models without altering unrelated behaviors. While some recent works have edited vision-language models (VLMs), no existing editors tackle reasoning-heavy tasks, which typically require humans and models to reason about images. We therefore propose ReasonEdit, the first VLM editor to let users explain their reasoning during editing, introducing a new, practical model editing setup. ReasonEdit continuously stores human reasoning in a codebook, and retrieves only relevant facts during inference using a novel topology-balanced multimodal embedding method inspired by network science. Across four VLMs on multiple rationale-based visual question answering datasets, ReasonEdit achieves state-of-the-art editing performance, ultimately showing that using human reasoning during editing greatly improves edit generalization.

Jiaxing Qiu, Kaihua Hou, Roxana Daneshjou, Ahmed Alaa, Thomas Hartvigsen• 2026

Related benchmarks

Task	Dataset	Result	Rank
Vision-Language Model Editing	FVQA 1.0 (test)	Accuracy100		48
VLM Editing	A-OKVQA 2022 (test)	Accuracy99		48

Showing 2 of 2 rows

Other info

Follow for update

@wizwand_team Discord