AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs

AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs

3 October 2024

Yevgeniy Vorobeychik

Somesh Jha

Patrick McDaniel

Huan Sun

Bo Li

Chaowei Xiao

Papers citing "AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs"

14 / 14 papers shown

Title
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong Xuzhao Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Tianwei Zhang ALM ELM 91 2 0 26 Apr 2025
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search Quy-Anh Dang Chris Ngo Truong-Son Hy AAML SyDa 33 0 0 21 Apr 2025
StealthRank: LLM Ranking Manipulation via Stealthy Prompt Optimization Yiming Tang Yi Fan Chenxiao Yu Tiankai Yang Yue Zhao Xiyang Hu 26 1 0 08 Apr 2025
A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models Carlos Peláez-González Andrés Herrera-Poyatos Cristina Zuheros David Herrera-Poyatos Virilo Tejedor F. Herrera AAML 24 0 0 07 Apr 2025
AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration Andy Zhou Kevin E. Wu Francesco Pinto Z. Chen Yi Zeng Yu Yang Shuang Yang Sanmi Koyejo James Zou Bo Li LLMAG AAML 77 0 0 20 Mar 2025
Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models Thomas Winninger Boussad Addad Katarzyna Kapusta AAML 68 0 0 08 Mar 2025
Adversarial Tokenization Renato Lui Geh Zilei Shao Mathias Niepert SILM AAML 87 0 0 04 Mar 2025
Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks Hanjiang Hu Alexander Robey Changliu Liu AAML LLMSV 47 1 0 28 Feb 2025
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement Zhexin Zhang Leqi Lei Junxiao Yang Xijie Huang Yida Lu ... Xianqi Lei Changzai Pan Lei Sha Han Wang Minlie Huang AAML 48 0 0 24 Feb 2025
TurboFuzzLLM: Turbocharging Mutation-based Fuzzing for Effectively Jailbreaking Large Language Models in Practice Aman Goel Xian Carrie Wu Zhe Wang Dmitriy Bespalov Yanjun Qi 49 0 0 21 Feb 2025
KDA: A Knowledge-Distilled Attacker for Generating Diverse Prompts to Jailbreak LLMs Buyun Liang Kwan Ho Ryan Chan D. Thaker Jinqi Luo René Vidal AAML 46 0 0 05 Feb 2025
Adversarial Training for Graph Neural Networks via Graph Subspace Energy Optimization Ganlin Liu Ziling Liang Xiaowei Huang Xinping Yi Shi Jin AAML 42 0 0 25 Dec 2024
AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts Vishal Kumar Zeyi Liao Jaylen Jones Huan Sun AAML 23 2 0 29 Oct 2024
Dynamic Guided and Domain Applicable Safeguards for Enhanced Security in Large Language Models He Cao Weidi Luo Zijing Liu Yu Wang Bing Feng Yuan Yao Yuan Yao Yu Li AAML 61 1 0 23 Oct 2024