Editing a classifier by rewriting its prediction rules

2 December 2021

Antonio Torralba

Papers citing "Editing a classifier by rewriting its prediction rules"

50 / 59 papers shown

Title
Learning Where to Edit Vision Transformers Yunqiao Yang Long-Kai Huang Shengzhuang Chen Kede Ma Ying Wei KELM 30 1 0 04 Nov 2024
WAPITI: A Watermark for Finetuned Open-Source LLMs Lingjie Chen Ruizhong Qiu Siyu Yuan Zhining Liu Tianxin Wei Hyunsik Yoo Zhichen Zeng Deqing Yang Hanghang Tong WaLM 39 4 0 09 Oct 2024
Criticality and Safety Margins for Reinforcement Learning Alexander Grushin Walt Woods Alvaro Velasquez Simon Khan AAML 28 1 0 26 Sep 2024
Concept-Based Explanations in Computer Vision: Where Are We and Where Could We Go? Jae Hee Lee Georgii Mikriukov Gesina Schwalbe Stefan Wermter D. Wolter 52 2 0 20 Sep 2024
Model editing for distribution shifts in uranium oxide morphological analysis Davis Brown Cody Nizinski Madelyn Shapiro Corey Fallon Tianzhixi Yin Henry Kvinge Jonathan Tu 40 0 0 22 Jul 2024
Concept Bottleneck Models Without Predefined Concepts Simon Schrodi Julian Schur Max Argus Thomas Brox 50 9 0 04 Jul 2024
Towards Compositionality in Concept Learning Adam Stein Aaditya Naik Yinjun Wu Mayur Naik Eric Wong CoGe 39 2 0 26 Jun 2024
Data Debiasing with Datamodels (D3M): Improving Subgroup Robustness via Data Selection Saachi Jain Kimia Hamidieh Kristian Georgiev Andrew Ilyas Marzyeh Ghassemi Aleksander Madry 37 2 0 24 Jun 2024
In-Context Editing: Learning Knowledge from Self-Induced Distributions Siyuan Qi Bangcheng Yang Kailin Jiang Xiaobo Wang Jiaqi Li Yifan Zhong Yaodong Yang Zilong Zheng KELM 106 8 0 17 Jun 2024
Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models Chia-Yi Hsu Yu-Lin Tsai Chih-Hsun Lin Pin-Yu Chen Chia-Mu Yu Chun-ying Huang 46 32 0 27 May 2024
Reactive Model Correction: Mitigating Harm to Task-Relevant Features via Conditional Bias Suppression Dilyara Bareeva Maximilian Dreyer Frederik Pahde Wojciech Samek Sebastian Lapuschkin KELM 67 1 0 15 Apr 2024
Towards Practical Tool Usage for Continually Learning LLMs Jerry Huang Prasanna Parthasarathi Mehdi Rezagholizadeh Sarath Chandar CLL KELM 56 4 0 14 Apr 2024
Inference-Time Rule Eraser: Fair Recognition via Distilling and Removing Biased Rules Yi Zhang Dongyuan Lu Jitao Sang FaML 37 1 0 07 Apr 2024
Understanding and Patching Compositional Reasoning in LLMs Zhaoyi Li Gangwei Jiang Hong Xie Linqi Song Defu Lian Ying Wei LRM 48 20 0 22 Feb 2024
Exploring higher-order neural network node interactions with total correlation Thomas Kerby Teresa White Kevin Moon 22 0 0 06 Feb 2024
Parameter-tuning-free data entry error unlearning with adaptive selective synaptic dampening Stefan Schoepf Jack Foster Alexandra Brintrup MU 28 6 0 06 Feb 2024
Clarify: Improving Model Robustness With Natural Language Corrections Yoonho Lee Michelle S. Lam Helena Vasconcelos Michael S. Bernstein Chelsea Finn 33 6 0 06 Feb 2024
DREditor: An Time-efficient Approach for Building a Domain-specific Dense Retrieval Model Chen Huang Duanyu Feng Wenqiang Lei Jiancheng Lv 57 1 0 23 Jan 2024
A Comprehensive Study of Knowledge Editing for Large Language Models Ningyu Zhang Yunzhi Yao Bo Tian Peng Wang Shumin Deng ... Lei Liang Qing Cui Xiao-Jun Zhu Jun Zhou Huajun Chen KELM 44 76 0 02 Jan 2024
Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision Collin Burns Pavel Izmailov Jan Hendrik Kirchner Bowen Baker Leo Gao ... Adrien Ecoffet Manas Joglekar Jan Leike Ilya Sutskever Jeff Wu ELM 41 258 0 14 Dec 2023
Identifying and Mitigating Model Failures through Few-shot CLIP-aided Diffusion Generation Atoosa Malemir Chegini S. Feizi VLM 40 4 0 09 Dec 2023
Continual Learning: Applications and the Road Forward Eli Verwimp Rahaf Aljundi Shai Ben-David Matthias Bethge Andrea Cossu ... J. Weijer Bing Liu Vincenzo Lomonaco Tinne Tuytelaars Gido M. van de Ven CLL 43 44 0 20 Nov 2023
Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models Shiwen Ni Dingwei Chen Chengming Li Xiping Hu Ruifeng Xu Min Yang KELM MoMe 34 7 0 14 Nov 2023
Codebook Features: Sparse and Discrete Interpretability for Neural Networks Alex Tamkin Mohammad Taufeeque Noah D. Goodman 32 27 0 26 Oct 2023
Knowledge Editing for Large Language Models: A Survey Song Wang Yaochen Zhu Haochen Liu Zaiyi Zheng Chen Chen Wenlin Yao KELM 66 133 0 24 Oct 2023
Interpreting and Controlling Vision Foundation Models via Text Explanations Haozhe Chen Junfeng Yang Carl Vondrick Chengzhi Mao 19 2 0 16 Oct 2023
Parameter Efficient Multi-task Model Fusion with Partial Linearization Anke Tang Li Shen Yong Luo Yibing Zhan Han Hu Bo Du Yixin Chen Dacheng Tao MoMe 26 30 0 07 Oct 2023
A Framework for Interpretability in Machine Learning for Medical Imaging Alan Q. Wang Batuhan K. Karaman Heejong Kim Jacob Rosenthal Rachit Saluja Sean I. Young M. Sabuncu AI4CE 17 10 0 02 Oct 2023
Overcoming Generic Knowledge Loss with Selective Parameter Update Wenxuan Zhang Paul Janson Rahaf Aljundi Mohamed Elhoseiny KELM CLL 29 10 0 23 Aug 2023
ReFACT: Updating Text-to-Image Models by Editing the Text Encoder Dana Arad Hadas Orgad Yonatan Belinkov KELM 41 18 0 01 Jun 2023
Transferring Learning Trajectories of Neural Networks Daiki Chijiwa 25 2 0 23 May 2023
Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models Guillermo Ortiz-Jiménez Alessandro Favero P. Frossard MoMe 51 110 0 22 May 2023
Implicit Visual Bias Mitigation by Posterior Estimate Sharpening of a Bayesian Neural Network Rebecca S Stone Nishant Ravikumar A. Bulpitt David C. Hogg BDL 36 0 0 29 Mar 2023
$Δ$ -Patching: A Framework for Rapid Adaptation of Pre-trained Convolutional Networks without Base Performance Loss Chaitanya Devaguptapu Samarth Sinha K. J. Joseph V. Balasubramanian Animesh Garg 65 1 0 26 Mar 2023
Editing Implicit Assumptions in Text-to-Image Diffusion Models Hadas Orgad Bahjat Kawar Yonatan Belinkov DiffM 28 86 0 14 Mar 2023
Edit at your own risk: evaluating the robustness of edited models to distribution shifts Davis Brown Charles Godfrey Cody Nizinski Jonathan Tu Henry Kvinge KELM 29 8 0 28 Feb 2023
Robust Weight Signatures: Gaining Robustness as Easy as Patching Weights? Ruisi Cai Zhenyu (Allen) Zhang Zhangyang Wang AAML OOD 33 12 0 24 Feb 2023
Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models Peter Hase Joey Tianyi Zhou Been Kim Asma Ghandeharioun MILM 34 167 0 10 Jan 2023
Editing Models with Task Arithmetic Gabriel Ilharco Marco Tulio Ribeiro Mitchell Wortsman Suchin Gururangan Ludwig Schmidt Hannaneh Hajishirzi Ali Farhadi KELM MoMe MU 51 428 0 08 Dec 2022
Interactive Visual Feature Search Devon Ulrich Ruth C. Fong FAtt 21 0 0 28 Nov 2022
Rank-One Editing of Encoder-Decoder Models Vikas Raunak Arul Menezes KELM 26 10 0 23 Nov 2022
Data-Centric Debugging: mitigating model failures via targeted data collection Sahil Singla Atoosa Malemir Chegini Mazda Moayeri Soheil Feiz 21 4 0 17 Nov 2022
Mechanistic Mode Connectivity Ekdeep Singh Lubana Eric J. Bigelow Robert P. Dick David M. Krueger Hidenori Tanaka 32 45 0 15 Nov 2022
Using Language to Extend to Unseen Domains Lisa Dunlap Clara Mohri Devin Guillory Han Zhang Trevor Darrell Joseph E. Gonzalez Aditi Raghunanthan Anja Rohrbach VLM 20 35 0 18 Oct 2022
Improving Data-Efficient Fossil Segmentation via Model Editing Indu Panigrahi Ryan Manzuk A. Maloof Ruth C. Fong 19 1 0 08 Oct 2022
Extremely Simple Activation Shaping for Out-of-Distribution Detection Andrija Djurisic Nebojsa Bozanic Arjun Ashok Rosanne Liu OODD 169 150 0 20 Sep 2022
Artifact-Based Domain Generalization of Skin Lesion Models Alceu Bissoto Catarina Barata Eduardo Valle Sandra Avila MedIm AI4CE 38 13 0 20 Aug 2022
Patching open-vocabulary models by interpolating weights Gabriel Ilharco Mitchell Wortsman S. Gadre Shuran Song Hannaneh Hajishirzi Simon Kornblith Ali Farhadi Ludwig Schmidt VLM KELM 32 166 0 10 Aug 2022
Leveraging Explanations in Interactive Machine Learning: An Overview Stefano Teso Öznur Alkan Wolfgang Stammer Elizabeth M. Daly XAI FAtt LRM 26 62 0 29 Jul 2022
Rewriting Geometric Rules of a GAN Sheng-Yu Wang David Bau Jun-Yan Zhu 40 35 0 28 Jul 2022