Estimating Training Data Influence by Tracing Gradient Descent

19 February 2020

Papers citing "Estimating Training Data Influence by Tracing Gradient Descent"

50 / 86 papers shown

Title
Benign Samples Matter! Fine-tuning On Outlier Benign Samples Severely Breaks Safety Zihan Guan Mengxuan Hu Ronghang Zhu Sheng Li Anil Vullikanti AAML 33 0 0 11 May 2025
Federated learning, ethics, and the double black box problem in medical AI Joshua Hatherley Anders Søgaard Angela Ballantyne Ruben Pauwels FedML 58 0 0 29 Apr 2025
Pre-training Generative Recommender with Multi-Identifier Item Tokenization Bowen Zheng Enze Liu Z. Chen Zhongrui Ma Yue Wang Wayne Xin Zhao Zhicheng Dou 41 0 0 06 Apr 2025
Data Cleansing for GANs Naoyuki Terashita Hiroki Ohashi Satoshi Hara AAML 56 0 0 01 Apr 2025
ALinFiK: Learning to Approximate Linearized Future Influence Kernel for Scalable Third-Party LLM Data Valuation Yanzhou Pan Huawei Lin Yide Ran Jiamin Chen Xiaodong Yu Weijie Zhao Denghui Zhang Zhaozhuo Xu 42 1 0 02 Mar 2025
Data Attribution for Text-to-Image Models by Unlearning Synthesized Images Sheng-Yu Wang Aaron Hertzmann Alexei A. Efros Jun-Yan Zhu Richard Zhang TDI 130 2 0 21 Feb 2025
BPO: Towards Balanced Preference Optimization between Knowledge Breadth and Depth in Alignment Sizhe Wang Yongqi Tong Hengyuan Zhang Dawei Li Xin Zhang Tianlong Chen 87 5 0 21 Feb 2025
Suboptimal Shapley Value Explanations Xiaolei Lu FAtt 67 0 0 17 Feb 2025
Building Bridges, Not Walls -- Advancing Interpretability by Unifying Feature, Data, and Model Component Attribution Shichang Zhang Tessa Han Usha Bhalla Hima Lakkaraju FAtt 160 0 0 17 Feb 2025
LiveVal: Time-aware Data Valuation via Adaptive Reference Points Jie Xu Zihan Wu Cong Wang Xiaohua Jia AI4TS 55 0 0 14 Feb 2025
Data Overvaluation Attack and Truthful Data Valuation Shuyuan Zheng Sudong Cai Chuan Xiao Yang Cao Jianbin Qin Masatoshi Yoshikawa Makoto Onizuka TDI AAML 70 0 0 01 Feb 2025
Ensembles of Low-Rank Expert Adapters Yinghao Li Vianne Gao Chao Zhang MohamadAli Torkamani 80 0 0 31 Jan 2025
RELexED: Retrieval-Enhanced Legal Summarization with Exemplar Diversity T. Y. S. S. Santosh Chen Jia Patrick Goroncy Matthias Grabmair AILaw 57 1 0 23 Jan 2025
Most Influential Subset Selection: Challenges, Promises, and Beyond Yuzheng Hu Pingbang Hu Han Zhao Jiaqi W. Ma TDI 142 2 0 10 Jan 2025
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models Yulei Qin Yuncheng Yang Pengcheng Guo Gang Li Hang Shao Yuchen Shi Zihan Xu Yun Gu Ke Li Xing Sun ALM 96 12 0 31 Dec 2024
Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion Models Jinxu Lin Linwei Tao Minjing Dong Chang Xu TDI 46 2 0 24 Oct 2024
Compute-Constrained Data Selection Junjie Oscar Yin Alexander M. Rush 42 0 0 21 Oct 2024
Data Quality Control in Federated Instruction-tuning of Large Language Models Yaxin Du Guangyi Liu Fengting Yuchi W. Zhao Jingjing Qu Yunhong Wang Siheng Chen ALM FedML 61 0 0 15 Oct 2024
Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models Zhipeng Chen Liang Song K. Zhou Wayne Xin Zhao Binghui Wang Weipeng Chen Ji-Rong Wen 68 0 0 10 Oct 2024
$$\texttt{dattri}$: A Library for Efficient Data Attribution$ $\texttt{dattri}$ : A Library for Efficient Data Attribution Junwei Deng Ting-Wei Li Shiyuan Zhang Shixuan Liu Yijun Pan Hao Huang Xinhe Wang Pingbang Hu Xingjian Zhang Jiaqi W. Ma TDI 42 3 0 06 Oct 2024
Influence-oriented Personalized Federated Learning Yue Tan Guodong Long Jing Jiang Chengqi Zhang FedML 35 0 0 04 Oct 2024
Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling Jinghan Li Zhicheng Sun Fei Li 108 1 0 02 Oct 2024
Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling David Grangier Simin Fan Skyler Seto Pierre Ablin 49 3 0 30 Sep 2024
Fast Training Dataset Attribution via In-Context Learning Milad Fotouhi M. T. Bahadori Oluwaseyi Feyisetan P. Arabshahi David Heckerman 41 0 0 14 Aug 2024
CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning Huaiguang Cai FedML TDI 69 1 0 17 Jun 2024
Data Shapley in One Training Run Jiachen T. Wang Prateek Mittal Dawn Song Ruoxi Jia TDI 50 7 0 16 Jun 2024
SAVA: Scalable Learning-Agnostic Data Valuation Samuel Kessler Tam Le Vu Nguyen TDI 69 0 0 03 Jun 2024
SelMatch: Effectively Scaling Up Dataset Distillation via Selection-Based Initialization and Partial Updates by Trajectory Matching Yongmin Lee Hye Won Chung 31 7 0 28 May 2024
Efficient Ensembles Improve Training Data Attribution Junwei Deng Ting-Wei Li Shichang Zhang Jiaqi Ma TDI 35 2 0 27 May 2024
Overcoming Catastrophic Forgetting by Exemplar Selection in Task-oriented Dialogue System Chen Chen Ruizhe Li Yuchen Hu Yuanyuan Chen Chengwei Qin Qiang Zhang CLL 46 2 0 16 May 2024
Distilled Datamodel with Reverse Gradient Matching Jingwen Ye Ruonan Yu Songhua Liu Xinchao Wang DD 55 3 0 22 Apr 2024
Influence based explainability of brain tumors segmentation in multimodal Magnetic Resonance Imaging Tommaso Torda Andrea Ciardiello Simona Gargiulo Greta Grillo Simone Scardapane Cecilia Voena S. Giagu 29 0 0 05 Apr 2024
Data-centric Prediction Explanation via Kernelized Stein Discrepancy Mahtab Sarvmaili Hassan Sajjad Ga Wu 36 1 0 22 Mar 2024
Accelerating the Global Aggregation of Local Explanations Alon Mor Yonatan Belinkov B. Kimelfeld FAtt 29 3 0 13 Dec 2023
Deeper Understanding of Black-box Predictions via Generalized Influence Functions Hyeonsu Lyu Jonggyu Jang Sehyun Ryu H. Yang TDI AI4CE 27 5 0 09 Dec 2023
SoK: Unintended Interactions among Machine Learning Defenses and Risks Vasisht Duddu S. Szyller Nadarajah Asokan AAML 52 2 0 07 Dec 2023
Intriguing Properties of Data Attribution on Diffusion Models Xiaosen Zheng Tianyu Pang Chao Du Jing Jiang Min Lin TDI 38 20 1 01 Nov 2023
Natural Example-Based Explainability: a Survey Antonin Poché Lucas Hervier M. Bakkay XAI 31 12 0 05 Sep 2023
Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources Feiyang Kang H. Just Anit Kumar Sahu R. Jia 61 10 0 05 Jul 2023
How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning Rochelle Choenni Dan Garrette Ekaterina Shutova 42 16 0 22 May 2023
Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation Yuxin Ren Zi-Qi Zhong Xingjian Shi Yi Zhu Chun Yuan Mu Li 27 7 0 16 May 2023
Unstructured and structured data: Can we have the best of both worlds with large language models? W. Tan 34 1 0 25 Apr 2023
Simfluence: Modeling the Influence of Individual Training Examples by Simulating Training Runs Kelvin Guu Albert Webson Ellie Pavlick Lucas Dixon Ian Tenney Tolga Bolukbasi TDI 70 33 0 14 Mar 2023
Make Every Example Count: On the Stability and Utility of Self-Influence for Learning from Noisy NLP Datasets Irina Bejan Artem Sokolov Katja Filippova TDI 32 9 0 27 Feb 2023
In-context Example Selection with Influences Nguyen Tai Eric Wong 24 48 0 21 Feb 2023
Explainable Anomaly Detection in Images and Videos: A Survey Yizhou Wang Dongliang Guo Sheng Li Octavia Camps Yun Fu 39 5 0 13 Feb 2023
Rationalizing Predictions by Adversarial Information Calibration Lei Sha Oana-Maria Camburu Thomas Lukasiewicz 30 4 0 15 Jan 2023
Contrastive Error Attribution for Finetuned Language Models Faisal Ladhak Esin Durmus Tatsunori Hashimoto HILM 32 9 0 21 Dec 2022
Data-Efficient Finetuning Using Cross-Task Nearest Neighbors Hamish Ivison Noah A. Smith Hannaneh Hajishirzi Pradeep Dasigi 38 20 0 01 Dec 2022
CS-Shapley: Class-wise Shapley Values for Data Valuation in Classification S. Schoch Haifeng Xu Yangfeng Ji TDI 23 24 0 13 Nov 2022