Title
Feature Extraction and Steering for Enhanced Chain-of-Thought Reasoning in Language Models Zihao Li Xu Wang Yuzhe Yang Ziyu Yao Haoyi Xiong Mengnan Du LLMSV LRM 15 0 0 21 May 2025
Induction Head Toxicity Mechanistically Explains Repetition Curse in Large Language Models Shuxun Wang Qingyu Yin Chak Tou Leong Qiang Zhang Linyi Yang 7 0 0 17 May 2025
GenderBench: Evaluation Suite for Gender Biases in LLMs Matúš Pikuliak 12 0 0 17 May 2025
Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language Models Banca Calvo Figueras Rodrigo Agerri ALM ELM LRM 22 1 0 16 May 2025
Ranked Voting based Self-Consistency of Large Language Models Weiqin Wang Yile Wang Hui Huang LRM 17 0 0 16 May 2025
MergeBench: A Benchmark for Merging Domain-Specialized LLMs Yifei He Siqi Zeng Yuzheng Hu Rui Yang Tong Zhang Han Zhao MoMe ALM 34 0 0 16 May 2025
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning Ye Liu Shengfang Zhai Mingzhe Du Yulin Chen Tri Cao ... Xuzhao Li Kun Wang Junfeng Fang Jiaheng Zhang Bryan Hooi OffRL LRM 16 0 0 16 May 2025
REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning? Chenxi Jiang Chuhao Zhou Jianfei Yang 9 0 0 16 May 2025
The Devil Is in the Word Alignment Details: On Translation-Based Cross-Lingual Transfer for Token Classification Tasks Benedikt Ebing Goran Glavaš 32 0 0 15 May 2025
Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis Bingda Tang Boyang Zheng Xichen Pan Sayak Paul Saining Xie 34 0 0 15 May 2025
AI-enhanced semantic feature norms for 786 concepts Siddharth Suresh Kushin Mukherjee Tyler Giallanza Xizheng Yu Mia Patil Jonathan Cohen Timothy T. Rogers 22 0 0 15 May 2025
Flash-VL 2B: Optimizing Vision-Language Model Performance for Ultra-Low Latency and High Throughput Bo Zhang Shuo Li Runhe Tian Yang Yang Jixin Tang Jinhao Zhou Lin Ma VLM 31 0 0 14 May 2025
Large Language Models for Computer-Aided Design: A Survey Licheng Zhang Bach Le Naveed Akhtar Siew-Kei Lam Tuan Ngo 3DV AI4CE 42 0 0 13 May 2025
Assessing and Mitigating Medical Knowledge Drift and Conflicts in Large Language Models Weiyi Wu Xinwen Xu Chongyang Gao Xingjian Diao Siting Li Lucas A. Salas Jiang Gui 26 0 0 12 May 2025
FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning Zhehao Zhang Weijie Xu Fanyou Wu Chandan K. Reddy 31 0 0 12 May 2025
Uncertainty Profiles for LLMs: Uncertainty Source Decomposition and Adaptive Model-Metric Selection Pei-Fu Guo Yun-Da Tsai Shou-De Lin UD 53 0 0 12 May 2025
Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2 Vytenis Šliogeris Povilas Daniušis Arturas Nakvosas CLL 40 0 0 09 May 2025
The ML.ENERGY Benchmark: Toward Automated Inference Energy Measurement and Optimization Jae-Won Chung Jiachen Liu Jeff J. Ma Ruofan Wu Oh Jun Kweon Yuxuan Xia Zhiyu Wu Mosharaf Chowdhury 31 0 0 09 May 2025
Evolutionary ecology of words Reiji Suzuki Takaya Arita 26 0 0 09 May 2025
Scalable LLM Math Reasoning Acceleration with Low-rank Distillation Harry Dong Bilge Acun Beidi Chen Yuejie Chi LRM 34 0 0 08 May 2025
Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders Boyi Deng Boyi Deng Yidan Zhang Baosong Yang Fuli Feng 46 0 0 08 May 2025
UKElectionNarratives: A Dataset of Misleading Narratives Surrounding Recent UK General Elections Fatima Haouari Carolina Scarton Nicolò Faggiani Nikolaos Nikolaidis Bonka Kotseva Ibrahim Abu Farha Jens Linge Kalina Bontcheva 46 0 0 08 May 2025
Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization Ajwad Abrar Farzana Tabassum Sabbir Ahmed LM&MA ELM AI4MH 48 0 0 08 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities Jiahui Geng Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 74 0 0 05 May 2025
Improving Model Alignment Through Collective Intelligence of Open-Source LLMS Junlin Wang Roy Xie Shang Zhu Jue Wang Ben Athiwaratkun Bhuwan Dhingra Shuaiwen Leon Song Ce Zhang James Zou ALM 38 0 0 05 May 2025
Don't be lazy: CompleteP enables compute-efficient deep transformers Nolan Dey Bin Claire Zhang Lorenzo Noci Mufan Li Blake Bordelon Shane Bergsma Cengiz Pehlevan Boris Hanin Joel Hestness 44 1 0 02 May 2025
Focus on the Likely: Test-time Instance-based Uncertainty Removal Johannes Schneider 35 0 0 02 May 2025
Multi-agents based User Values Mining for Recommendation L. Chen Wei Yuan Tong Chen Xiangyu Zhao Nguyen Quoc Viet Hung Hongzhi Yin OffRL 52 0 0 02 May 2025
ScaleTrack: Scaling and back-tracking Automated GUI Agents Jing Huang Zhixiong Zeng Wenkang Han Yufeng Zhong Liming Zheng Shuai Fu Jingyuan Chen Lin Ma 206 0 0 01 May 2025
Sadeed: Advancing Arabic Diacritization Through Small Language Model Zeina Aldallal Sara Chrouf Khalil Hennara Mohamed Motaism Hamed Muhammad Hreden Safwan AlModhayan 58 0 0 30 Apr 2025
COSMOS: Predictable and Cost-Effective Adaptation of LLMs Jiayu Wang Aws Albarghouthi Frederic Sala 57 0 0 30 Apr 2025
LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics Marc Glocker Peter Honig Matthias Hirschmanner Markus Vincze LM&Ro 83 2 0 30 Apr 2025
Scaling Laws For Scalable Oversight Joshua Engels David D. Baek Subhash Kantamneni Max Tegmark ELM 77 0 0 25 Apr 2025
The Big Send-off: High Performance Collectives on GPU-based Supercomputers Siddharth Singh Mahua Singh A. Bhatele 54 0 0 25 Apr 2025
llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length Issa Sugiura Kouta Nakayama Yusuke Oda 34 1 0 22 Apr 2025
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens Kaihang Pan Wang Lin Zhongqi Yue Tenglong Ao Liyu Jia Wei Zhao Juncheng Billy Li Siliang Tang Hanwang Zhang 58 2 0 20 Apr 2025
MIB: A Mechanistic Interpretability Benchmark Aaron Mueller Atticus Geiger Sarah Wiegreffe Dana Arad Iván Arcuschin ... Alessandro Stolfo Martin Tutek Amir Zur David Bau Yonatan Belinkov 51 1 0 17 Apr 2025
Tilus: A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving Yaoyao Ding Bohan Hou X. Zhang Allan Lin Tianqi Chen Cody Yu Hao Yida Wang Gennady Pekhimenko 50 0 0 17 Apr 2025
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float Tianyi Zhang Yang Sui Shaochen Zhong V. Chaudhary Xia Hu Anshumali Shrivastava MQ 32 1 0 15 Apr 2025
FuseRL: Dense Preference Optimization for Heterogeneous Model Fusion Longguang Zhong Fanqi Wan Ziyi Yang Guosheng Liang Tianyuan Shi Xiaojun Quan MoMe 57 0 0 09 Apr 2025
SEA-LION: Southeast Asian Languages in One Network Raymond Ng Thanh Ngan Nguyen Yuli Huang Ngee Chia Tai Wai Yi Leong ... David Ong Tat-Wee B. Liu William-Chandra Tjhi Min Zhang Leslie Teo 44 12 0 08 Apr 2025
It's the same but not the same: Do LLMs distinguish Spanish varieties? Marina Mayor-Rocher Cristina del Pozo Nina Melero Gonzalo Martínez María Grandury Pedro Reviriego ELM 46 0 0 08 Apr 2025
CARE: Aligning Language Models for Regional Cultural Awareness Geyang Guo Tarek Naous Hiromi Wakaki Yukiko Nishimura Yuki Mitsufuji Alan Ritter Wei-ping Xu 56 1 0 07 Apr 2025
Steering off Course: Reliability Challenges in Steering Language Models Patrick Queiroz Da Silva Hari Sethuraman Dheeraj Rajagopal Hannaneh Hajishirzi Sachin Kumar LLMSV 37 1 0 06 Apr 2025
Inference-Time Scaling for Generalist Reward Modeling Zijun Liu P. Wang Ran Xu Shirong Ma Chong Ruan Peng Li Yang Liu Y. Wu OffRL LRM 46 19 0 03 Apr 2025
Zero-shot Benchmarking: A Framework for Flexible and Scalable Automatic Evaluation of Language Models José P. Pombal Nuno M. Guerreiro Ricardo Rei André F. T. Martins ALM 75 0 0 01 Apr 2025
Are you really listening? Boosting Perceptual Awareness in Music-QA Benchmarks Yongyi Zang Sean O'Brien Taylor Berg-Kirkpatrick Julian McAuley Zachary Novack AuLLM 94 1 0 01 Apr 2025
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute Jianhao Chen Zishuo Xun Bocheng Zhou Han Qi Qiaosheng Zhang ... Wei Hu Yuzhong Qu W. Ouyang Wanli Ouyang Shuyue Hu 74 1 0 01 Apr 2025
Rubrik's Cube: Testing a New Rubric for Evaluating Explanations on the CUBE dataset Diana Galván-Sosa Gabrielle Gaudeau Pride Kavumba Yunmeng Li Hongyi gu Zheng Yuan Keisuke Sakaguchi P. Buttery LRM 40 0 0 31 Mar 2025
Contextualize-then-Aggregate: Circuits for In-Context Learning in Gemma-2 2B Aleksandra Bakalova Yana Veitsman Xinting Huang Michael Hahn 36 0 0 31 Mar 2025