Unveiling Safety Vulnerabilities of Large Language Models

Unveiling Safety Vulnerabilities of Large Language Models

7 November 2023

Marcel Zalmanovici

Naama Zwerdling

Esther Goldbraich

Ora Nova Fandina

Ateret Anaby-Tavor

Papers citing "Unveiling Safety Vulnerabilities of Large Language Models"

10 / 10 papers shown

Title
RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models Bang An Shiyue Zhang Mark Dredze 61 0 0 25 Apr 2025
Adversarial Prompt Evaluation: Systematic Benchmarking of Guardrails Against Prompt Input Attacks on LLMs Giulio Zizzo Giandomenico Cornacchia Kieran Fraser Muhammad Zaid Hameed Ambrish Rawat Beat Buesser Mark Purcell Pin-Yu Chen P. Sattigeri Kush R. Varshney AAML 43 2 0 24 Feb 2025
Arabic Dataset for LLM Safeguard Evaluation Yasser Ashraf Yuxia Wang Bin Gu Preslav Nakov Timothy Baldwin 21 0 0 22 Oct 2024
Large Language Models can be Strong Self-Detoxifiers Ching-Yun Ko Pin-Yu Chen Payel Das Youssef Mroueh Soham Dan Georgios Kollias Subhajit Chaudhury Tejaswini Pedapati Luca Daniel 34 2 0 04 Oct 2024
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI Ambrish Rawat Stefan Schoepf Giulio Zizzo Giandomenico Cornacchia Muhammad Zaid Hameed ... Elizabeth M. Daly Mark Purcell P. Sattigeri Pin-Yu Chen Kush R. Varshney AAML 40 7 0 23 Sep 2024
When LLMs Meet Cybersecurity: A Systematic Literature Review Jie Zhang Haoyu Bu Hui Wen Yu Chen Lun Li Hongsong Zhu 45 36 0 06 May 2024
Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations Christian Tomani Kamalika Chaudhuri Ivan Evtimov Daniel Cremers Mark Ibrahim 59 9 0 16 Apr 2024
Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations Swapnaja Achintalwar Adriana Alvarado Garcia Ateret Anaby-Tavor Ioana Baldini Sara E. Berger ... Aashka Trivedi Kush R. Varshney Dennis L. Wei Shalisha Witherspooon Marcel Zalmanovici 33 10 0 09 Mar 2024
Alignment Studio: Aligning Large Language Models to Particular Contextual Regulations Swapnaja Achintalwar Ioana Baldini Djallel Bouneffouf Joan Byamugisha Maria Chang ... P. Sattigeri Moninder Singh S. Thwala Rosario A. Uceda-Sosa Kush R. Varshney 50 4 0 08 Mar 2024
MetaAID 2.5: A Secure Framework for Developing Metaverse Applications via Large Language Models Hongyin Zhu 39 6 0 22 Dec 2023