Title
Can LLMs Rank the Harmfulness of Smaller LLMs? We are Not There Yet Berk Atil Vipul Gupta Sarkar Snigdha Sarathi Das R. Passonneau 155 0 0 07 Feb 2025
Data Duplication: A Novel Multi-Purpose Attack Paradigm in Machine Unlearning Dayong Ye Tainqing Zhu J. Li Kun Gao B. Liu L. Zhang Wanlei Zhou Y. Zhang AAML MU 80 0 0 28 Jan 2025
Deploying Privacy Guardrails for LLMs: A Comparative Analysis of Real-World Applications Shubhi Asthana Bing Zhang Ruchi Mahindru Chad DeLuca Anna Lisa Gentile Sandeep Gopisetty 30 0 0 21 Jan 2025
Episodic Memories Generation and Evaluation Benchmark for Large Language Models Alexis Huet Zied Ben-Houidi Dario Rossi LLMAG 54 0 0 21 Jan 2025
Synthetic Data Can Mislead Evaluations: Membership Inference as Machine Text Detection Ali Naseh Niloofar Mireshghallah 53 0 0 20 Jan 2025
GRID: Protecting Training Graph from Link Stealing Attacks on GNN Models Jiadong Lou Xu Yuan Rui Zhang Xingliang Yuan Neil Gong N. Tzeng AAML 40 1 0 19 Jan 2025
Understanding and Mitigating Membership Inference Risks of Neural Ordinary Differential Equations Sanghyun Hong Fan Wu A. Gruber Kookjin Lee 42 0 0 12 Jan 2025
Towards Effective Discrimination Testing for Generative AI Thomas P. Zollo Nikita Rajaneesh Richard Zemel Talia B. Gillis Emily Black 30 1 0 31 Dec 2024
Social Science Is Necessary for Operationalizing Socially Responsible Foundation Models Adam Davies Elisa Nguyen Michael Simeone Erik Johnston Martin Gubri 90 0 0 20 Dec 2024
SoK: Decentralized AI (DeAI) Zhipeng Wang Rui Sun Elizabeth Lui Vatsal Shah Xihan Xiong Jiahao Sun Davide Crapis William Knottenbelt 96 1 0 26 Nov 2024
Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors Yuefeng Peng Junda Wang Hong-ye Yu Amir Houmansadr SILM 50 2 0 03 Nov 2024
RESTOR: Knowledge Recovery through Machine Unlearning Keivan Rezaei Khyathi Raghavi Chandu S. Feizi Yejin Choi Faeze Brahman Abhilasha Ravichander KELM CLL MU 58 0 0 31 Oct 2024
On Memorization of Large Language Models in Logical Reasoning Chulin Xie Yangsibo Huang Chiyuan Zhang Da Yu Xinyun Chen Bill Yuchen Lin Bo Li Badih Ghazi Ravi Kumar LRM 51 20 0 30 Oct 2024
Exploring Local Memorization in Diffusion Models via Bright Ending Attention C. L. P. Chen Daochang Liu M. Shah Chang Xu 60 3 0 29 Oct 2024
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate Zhiqi Bu Xiaomeng Jin Bhanukiran Vinzamuri Anil Ramakrishna Kai-Wei Chang V. Cevher Mingyi Hong MU 83 6 0 29 Oct 2024
Mask-based Membership Inference Attacks for Retrieval-Augmented Generation Mingrui Liu Sixiao Zhang Cheng Long AAML 57 2 0 26 Oct 2024
Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina Yuan Gao Dokyun Lee Gordon Burtch Sina Fazelpour LRM 50 7 0 25 Oct 2024
Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization Xiyue Peng Hengquan Guo Jiawei Zhang Dongqing Zou Ziyu Shao Honghao Wei Xin Liu 39 0 0 25 Oct 2024
Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on Detection Assumptions Yujuan Fu Özlem Uzuner Meliha Yetisgen Fei Xia 59 3 0 24 Oct 2024
PAPILLON: Privacy Preservation from Internet-based and Local Language Model Ensembles Li Siyan Vethavikashini Chithrra Raghuram Omar Khattab Julia Hirschberg Zhou Yu 21 7 0 22 Oct 2024
Natural Language Processing for Human Resources: A Survey Naoki Otani Nikita Bhutani Estevam R. Hruschka VLM 35 0 0 21 Oct 2024
Reconstruction of Differentially Private Text Sanitization via Large Language Models Shuchao Pang Zhigang Lu H. Wang Peng Fu Yongbin Zhou Minhui Xue AAML 51 4 0 16 Oct 2024
Sequential LLM Framework for Fashion Recommendation Han Liu Xianfeng Tang Tianlang Chen Jiapeng Liu Indu Indu ... Roberto Fernandez Galan Michael D Porter Dongmei Jia Ning Zhang Lian Xiong AI4TS 31 1 0 15 Oct 2024
Uncovering Attacks and Defenses in Secure Aggregation for Federated Deep Learning Yiwei Zhang R. Behnia A. Yavuz Reza Ebrahimi E. Bertino FedML 20 2 0 13 Oct 2024
Impeding LLM-assisted Cheating in Introductory Programming Assignments via Adversarial Perturbation Saiful Islam Salim Rubin Yuchan Yang Alexander Cooper Suryashree Ray Saumya Debray Sazzadur Rahaman AAML 42 0 0 12 Oct 2024
Decoding Secret Memorization in Code LLMs Through Token-Level Characterization Yuqing Nie Chong Wang K. Wang Guoai Xu Guosheng Xu Haoyu Wang OffRL 125 1 0 11 Oct 2024
Detecting Training Data of Large Language Models via Expectation Maximization Gyuwan Kim Yang Li Evangelia Spiliopoulou Jie Ma Miguel Ballesteros William Yang Wang MIALM 92 3 2 10 Oct 2024
COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act Philipp Guldimann Alexander Spiridonov Robin Staab Nikola Jovanović Mark Vero ... Mislav Balunović Nikola Konstantinov Pavol Bielik Petar Tsankov Martin Vechev ELM 45 4 0 10 Oct 2024
Bridging Today and the Future of Humanity: AI Safety in 2024 and Beyond Shanshan Han 75 1 0 09 Oct 2024
Fine-tuning can Help Detect Pretraining Data from Large Language Models H. Zhang Songxin Zhang Bingyi Jing Hongxin Wei 36 0 0 09 Oct 2024
Non-Halting Queries: Exploiting Fixed Points in LLMs Ghaith Hammouri Kemal Derya B. Sunar 28 0 0 08 Oct 2024
How Much Can We Forget about Data Contamination? Sebastian Bordt Suraj Srinivas Valentyn Boreiko U. V. Luxburg 43 1 0 04 Oct 2024
Mitigating Memorization In Language Models Mansi Sakarvadia Aswathy Ajith Arham Khan Nathaniel Hudson Caleb Geniesse Kyle Chard Yaoqing Yang Ian Foster Michael W. Mahoney KELM MU 50 0 0 03 Oct 2024
Undesirable Memorization in Large Language Models: A Survey Ali Satvaty Suzan Verberne Fatih Turkmen ELM PILM 71 7 0 03 Oct 2024
Federated Instruction Tuning of LLMs with Domain Coverage Augmentation Zezhou Wang Yaxin Du Zhuzhong Qian Yugang Jiang Zhuzhong Qian Siheng Chen FedML 117 0 0 30 Sep 2024
Membership Inference Attacks Cannot Prove that a Model Was Trained On Your Data Jie Zhang Debeshee Das Gautam Kamath Florian Tramèr MIALM MIACV 225 16 1 29 Sep 2024
Application of AI-based Models for Online Fraud Detection and Analysis Antonis Papasavva Shane Johnson Ed Lowther Samantha Lundrigan Enrico Mariconti Anna Markovska Nilufer Tuptuk 28 0 0 25 Sep 2024
Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method Weichao Zhang Ruqing Zhang Jiafeng Guo Maarten de Rijke Yixing Fan Xueqi Cheng 28 7 0 23 Sep 2024
PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs Jiahao Yu Yangguang Shao Hanwen Miao Junzheng Shi SILM AAML 67 4 0 23 Sep 2024
Training Large ASR Encoders with Differential Privacy Geeticka Chauhan Steve Chien Om Thakkar Abhradeep Thakurta Arun Narayanan 28 1 0 21 Sep 2024
Visualizationary: Automating Design Feedback for Visualization Designers using LLMs Sungbok Shin Sanghyun Hong Niklas Elmqvist 22 0 0 19 Sep 2024
MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts Tianle Gu Kexin Huang Ruilin Luo Yuanqi Yao Yujiu Yang Yan Teng Yingchun Wang MU 39 4 0 18 Sep 2024
Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data Atilla Akkus Mingjie Li Junjie Chu Junjie Chu Michael Backes Sinem Sav Sinem Sav SILM SyDa 43 1 0 12 Sep 2024
A Different Level Text Protection Mechanism With Differential Privacy Qingwen Fu 33 0 0 05 Sep 2024
Recent Advances in Attack and Defense Approaches of Large Language Models Jing Cui Yishi Xu Zhewei Huang Shuchang Zhou Jianbin Jiao Junge Zhang PILM AAML 52 1 0 05 Sep 2024
Differentially Private Kernel Density Estimation Erzhi Liu Jerry Yao-Chieh Hu Alex Reneau Zhao Song Han Liu 66 3 0 03 Sep 2024
Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage Md. Rafi Ur Rashid Jing Liu T. Koike-Akino Shagufta Mehnaz Ye Wang MU SILM 36 3 0 30 Aug 2024
Investigating Privacy Leakage in Dimensionality Reduction Methods via Reconstruction Attack Chayadon Lumbut Donlapark Ponnoprat 25 0 0 30 Aug 2024
Privacy Checklist: Privacy Violation Detection Grounding on Contextual Integrity Theory Haoran Li Wei Fan Yulin Chen Jiayang Cheng Tianshu Chu Xuebing Zhou Peizhao Hu Yangqiu Song AILaw 41 2 0 19 Aug 2024
Range Membership Inference Attacks Jiashu Tao Reza Shokri 40 1 0 09 Aug 2024