Title
The Dark Patterns of Personalized Persuasion in Large Language Models: Exposing Persuasive Linguistic Features for Big Five Personality Traits in LLMs Responses Wiktoria Mieleszczenko-Kowszewicz Dawid Płudowski Filip Kołodziejczyk Jakub Świstak Julian Sienkiewicz P. Biecek 86 2 0 08 Nov 2024
AI Metropolis: Scaling Large Language Model-based Multi-Agent Simulation with Out-of-order Execution Zhiqiang Xie Hao Kang Ying Sheng Tushar Krishna Kayvon Fatahalian Christos Kozyrakis LRM AI4CE LLMAG LM&Ro 47 2 0 05 Nov 2024
Pricing and Competition for Generative AI Rafid Mahmood 51 3 0 04 Nov 2024
Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations Evan Miller ELM 43 20 0 01 Nov 2024
Soft Condorcet Optimization for Ranking of General Agents Marc Lanctot Kate Larson Michael Kaisers Quentin Berthet I. Gemp Manfred Diaz Roberto-Rafael Maura-Rivero Yoram Bachrach Anna Koop Doina Precup 63 0 0 31 Oct 2024
Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists Michał Pietruszka Łukasz Borchmann Aleksander Jędrosz Paweł Morawiecki ELM 30 0 0 30 Oct 2024
Toxicity of the Commons: Curating Open-Source Pre-Training Data Catherine Arnett Eliot Jones Ivan P. Yamshchikov Pierre-Carl Langlais 41 2 0 29 Oct 2024
Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications Monica Riedler Stefan Langer VLM 49 14 0 29 Oct 2024
Do Large Language Models Align with Core Mental Health Counseling Competencies? Viet Cuong Nguyen Mohammad Taher Dongwan Hong Vinicius Konkolics Possobom Vibha Thirunellayi Gopalakrishnan ... Zihang Li H. J. Soled Michael L. Birnbaum Srijan Kumar M. D. Choudhury ELM LM&MA AI4MH 46 4 0 29 Oct 2024
Project MPG: towards a generalized performance benchmark for LLM capabilities Lucas Spangher Tianle Li William Arnold Nick Masiewicki Xerxes Dotiwalla Rama Parusmathi Peter Grabowski Eugene Ie Dan Gruhl 46 0 0 28 Oct 2024
Limitations of the LLM-as-a-Judge Approach for Evaluating LLM Outputs in Expert Knowledge Tasks Annalisa Szymanski Noah Ziems Heather A. Eicher-Miller Tao Li Meng Jiang Ronald A Metoyer ALM ELM 72 21 0 26 Oct 2024
Improving Model Evaluation using SMART Filtering of Benchmark Datasets Vipul Gupta Candace Ross David Pantoja R. Passonneau Megan Ung Adina Williams 145 1 0 26 Oct 2024
Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework Esteban Garces Arias Hannah Blocher Julian Rodemann Meimingwei Li Christian Heumann Matthias Aßenmacher 49 1 0 24 Oct 2024
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback Lester James V. Miranda Yizhong Wang Yanai Elazar Sachin Kumar Valentina Pyatkin Faeze Brahman Noah A. Smith Hannaneh Hajishirzi Pradeep Dasigi 57 8 0 24 Oct 2024
TabDPT: Scaling Tabular Foundation Models Junwei Ma Valentin Thomas Rasa Hosseinzadeh Hamidreza Kamkari Alex Labach Jesse C. Cresswell Keyvan Golestan Guangwei Yu M. Volkovs Anthony L. Caterini LMTD 41 4 0 23 Oct 2024
Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Model Alignment Mingzhi Wang Chengdong Ma Qizhi Chen Linjian Meng Yang Han Jiancong Xiao Zhaowei Zhang Jing Huo Weijie Su Yaodong Yang 45 7 0 22 Oct 2024
Teach Multimodal LLMs to Comprehend Electrocardiographic Images Ruoqi Liu Yuelin Bai Xiang Yue Ping Zhang 29 3 0 21 Oct 2024
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution Maosong Cao Alexander Lam Haodong Duan Hongwei Liu Shanghang Zhang Kai Chen AILaw ELM 61 16 0 21 Oct 2024
Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs Sumanth Doddapaneni Mohammed Safi Ur Rahman Khan Dilip Venkatesh Raj Dabre Anoop Kunchukuttan Mitesh M. Khapra ELM 53 1 0 17 Oct 2024
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models Yuzhe Yang Yifei Zhang Yan Hu Y. Guo Ruoli Gan ... Haining Wang Qianqian Xie Jimin Huang Honghai Yu Benyou Wang ELM AIFin 45 2 0 17 Oct 2024
From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization Catarina G. Belem Pouya Pezeskhpour Hayate Iso Seiji Maekawa Nikita Bhutani Estevam R. Hruschka HILM 75 3 0 17 Oct 2024
MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems Nandan Thakur Suleman Kazi Ge Luo Jimmy J. Lin Amin Ahmad VLM RALM 41 7 0 17 Oct 2024
Limits to scalable evaluation at the frontier: LLM as Judge won't beat twice the data Florian E. Dorner Vivian Y. Nastl Moritz Hardt ELM ALM 53 6 0 17 Oct 2024
Qtok: A Comprehensive Framework for Evaluating Multilingual Tokenizer Quality in Large Language Models Iaroslav Chelombitko Egor Safronov Aleksey Komissarov 50 1 0 16 Oct 2024
A Survey on Data Synthesis and Augmentation for Large Language Models Ke Wang Jiahui Zhu Minjie Ren Ziqiang Liu Shiwei Li ... Yiming Lei Xiaoyu Wu Qiqi Zhan Qingjie Liu Yunhong Wang SyDa 64 18 0 16 Oct 2024
De-jargonizing Science for Journalists with GPT-4: A Pilot Study Sachita Nishal Eric Lee Nicholas Diakopoulos 40 0 0 15 Oct 2024
MLP-SLAM: Multilayer Perceptron-Based Simultaneous Localization and Mapping With a Dynamic and Static Object Discriminator Taozhe Li Wei Sun 41 0 0 14 Oct 2024
3DArticCyclists: Generating Synthetic Articulated 8D Pose-Controllable Cyclist Data for Computer Vision Applications Eduardo R. Corral-Soto Yang Liu Tongtong Cao Y. Ren Liu Bingbing 68 0 0 14 Oct 2024
Are You Human? An Adversarial Benchmark to Expose LLMs Gilad Gressel Rahul Pankajakshan Yisroel Mirsky DeLMO 45 1 0 12 Oct 2024
LIME-Eval: Rethinking Low-light Image Enhancement Evaluation via Object Detection Mingjia Li Hao Zhao Xiaojie Guo ObjD 54 3 0 11 Oct 2024
Language model developers should report train-test overlap Andy K. Zhang Kevin Klyman Yifan Mai Yoav Levine Yian Zhang Rishi Bommasani Percy Liang VLM ELM 42 8 0 10 Oct 2024
TRIAGE: Ethical Benchmarking of AI Models Through Mass Casualty Simulations Nathalie Maria Kirch Konstantin Hebenstreit Matthias Samwald 38 1 0 10 Oct 2024
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models Bofei Gao Feifan Song Zhiyong Yang Zefan Cai Yibo Miao ... Lei Sha Yichang Zhang Xuancheng Ren Tianyu Liu Baobao Chang ELM LRM 47 40 0 10 Oct 2024
GameTraversalBenchmark: Evaluating Planning Abilities Of Large Language Models Through Traversing 2D Game Maps Muhammad Umair Nasir Steven D. James Julian Togelius ELM LRM 41 4 0 10 Oct 2024
The Moral Turing Test: Evaluating Human-LLM Alignment in Moral Decision-Making Basile Garcia Crystal Qian Stefano Palminteri ELM 57 2 0 09 Oct 2024
ReIFE: Re-evaluating Instruction-Following Evaluation Yixin Liu Kejian Shi Alexander R. Fabbri Yilun Zhao Peifeng Wang Chien-Sheng Wu Shafiq Joty Arman Cohan 40 6 0 09 Oct 2024
Capturing Bias Diversity in LLMs Purva Prasad Gosavi Vaishnavi Murlidhar Kulkarni Alan F. Smeaton 31 0 0 09 Oct 2024
Uncovering Factor Level Preferences to Improve Human-Model Alignment Juhyun Oh Eunsu Kim Jiseon Kim Wenda Xu Inha Cha William Yang Wang Alice Oh 53 1 0 09 Oct 2024
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints Thomas Palmeira Ferraz Kartik Mehta Yu-Hsiang Lin Haw-Shiuan Chang Shereen Oraby Sijia Liu Vivek Subramanian Tagyoung Chung Mohit Bansal Nanyun Peng 61 9 0 09 Oct 2024
Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates Xiaosen Zheng Tianyu Pang Chao Du Qian Liu Jing Jiang Min Lin 53 8 0 09 Oct 2024
Accelerated Preference Optimization for Large Language Model Alignment Jiafan He Huizhuo Yuan Q. Gu 33 1 0 08 Oct 2024
BUMBLE: Unifying Reasoning and Acting with Vision-Language Models for Building-wide Mobile Manipulation Rutav Shah Albert Yu Yifeng Zhu Yuke Zhu Roberto Martín-Martín LM&Ro 61 6 0 08 Oct 2024
TOWER: Tree Organized Weighting for Evaluating Complex Instructions Noah Ziems Zhihan Zhang Meng Jiang ALM 37 0 0 08 Oct 2024
KnowledgeSG: Privacy-Preserving Synthetic Text Generation with Knowledge Distillation from Server Wenhao Wang Xiaoyu Liang Rui Ye Jingyi Chai Siheng Chen Yanfeng Wang SyDa 46 4 0 08 Oct 2024
As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss Xin Mao Feng-Lin Li Huimin Xu Wei Zhang Wang Chen Anh Tuan Luu 45 1 0 07 Oct 2024
An evaluation of LLM code generation capabilities through graded exercises Álvaro Barbero Jiménez ELM 41 1 0 06 Oct 2024
Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF Zhaolin Gao Wenhao Zhan Jonathan D. Chang Gokul Swamy Kianté Brantley Jason D. Lee Wen Sun OffRL 81 3 0 06 Oct 2024
Learning Code Preference via Synthetic Evolution Jiawei Liu Thanh Nguyen Mingyue Shang Hantian Ding Xiaopeng Li Yu Yu Varun Kumar Zijian Wang SyDa ALM AAML 28 5 0 04 Oct 2024
Generating bilingual example sentences with large language models as lexicography assistants Raphael Merx Ekaterina Vylomova Kemal Kurniawan 36 2 0 04 Oct 2024
CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs Yu Ying Chiu Liwei Jiang Bill Yuchen Lin Chan Young Park Shuyue Stella Li ... Mehar Bhatia Maria Antoniak Yulia Tsvetkov Vered Shwartz Yejin Choi ELM ALM 70 18 0 03 Oct 2024