Alignment for Language Models

ALM

Focuses on research that actively explores methods and strategies to ensure language models' outputs align with human values, ethics, and intentions, constituting a significant portion of the paper's content.

Neighbor communities

51015

Featured Papers

0 / 0 papers shown

All papers

50 / 1,814 papers shown

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation Bosi Wen Yilin Niu Cunxiang Wang Xiaoying Ling Ying Zhang Pei Ke Hongning Wang Minlie Huang ALM 0 0 0 05 Mar 2026
When Do Language Models Endorse Limitations on Human Rights Principles? Keenan Samway Nicole Miu Takagi Rada Mihalcea Bernhard Schölkopf Ilias Chalkidis Daniel Hershcovich Zhijing Jin ALM 23 0 0 04 Mar 2026
Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning Lei Huang Xiang Cheng Chenxiao Zhao Guobin Shen Junjie Yang Xiaocheng Feng Yuxuan Gu Xing Yu Bing Qin ALM 0 0 0 04 Mar 2026
Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks Junjie Chu Xinyue Shen Ye Leng Michael Backes Yun Shen Yang Zhang ALM 0 0 0 03 Mar 2026
How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks Mohamed Amine Ferrag Abderrahmane Lakas Merouane Debbah MoE ALM LRM 13 0 0 02 Mar 2026
FT-Dojo: Towards Autonomous LLM Fine-Tuning with Language Agents Qizheng Li Yifei Zhang Xiao Yang Xu Yang Zhuo Wang Weiqing Liu Jiang Bian LLMAG ALM 9 0 0 02 Mar 2026
When Numbers Tell Half the Story: Human-Metric Alignment in Topic Model Evaluation Thibault Prouteau Francis Lareau Nicolas Dugué Jean-Charles Lamirel Christophe Malaterre ALM 20 0 0 02 Mar 2026
RubricBench: Aligning Model-Generated Rubrics with Human Standards Qiyuan Zhang Junyi Zhou Yufei Wang Fuyuan Lyu Yidong Ming ... Qingfeng Sun Kai Zheng Peng Kang Xue Liu Chen Ma ALM 10 0 0 02 Mar 2026
DEP: A Decentralized Large Language Model Evaluation Protocol Jianxiang Peng Junhao Li Hongxiang Wang Haocheng Lyu Hui Guo ... Tianyu Dong Juesi Xiao Lei Yang Yuqi Ren Deyi Xiong ALM 27 0 0 01 Mar 2026
DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science Fan Shu Yite Wang Ruofan Wu Boyi Liu Zhewei Yao Yuxiong He Feng Yan ALM ELM 28 0 0 27 Feb 2026
CxMP: A Linguistic Minimal-Pair Benchmark for Evaluating Constructional Understanding in Language Models Miyu Oba Saku Sugawara ALM ELM CoGe LRM 57 0 0 25 Feb 2026
QEDBENCH: Quantifying the Alignment Gap in Automated Evaluation of University-Level Mathematical Proofs Santiago Gonzalez Alireza Amiri Bavandpour Peter Ye Edward Zhang Ruslans Aleksejevs ... Sibel Yalçın Jun Yan Ji Zeng Arman Cohan Quanquan C. Liu ALM ELM 10 0 0 24 Feb 2026
CAMEL: Confidence-Gated Reflection for Reward Modeling Zirui Zhu Hailun Xu Yang Luo Yong Liu Kanchan Sarkar Kun Xu Yang You ALM 28 0 0 24 Feb 2026
Can Large Language Models Replace Human Coders? Introducing ContentBench Michael Haman ALM AI4MH 8 0 0 23 Feb 2026
From Human-Level AI Tales to AI Leveling Human Scales Peter Romero Fernando Martínez-Plumed Zachary R. Tyler Matthieu Téhénan Sipeng Chen ... Yael Moros Daval Daniel Romero-Alvarado Félix Martí Pérez Kevin Wei José Hernández-Orallo ALM 5 0 0 21 Feb 2026
When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment Chuting Yu Hang Li Guido Zuccon Joel Mackenzie Teerapong Leelanupab ALM 78 0 0 19 Feb 2026
ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders Ofer Meshi Krisztian Balog Sally Goldman Avi Caciularu Guy Tennenholtz Jihwan Jeong Amir Globerson Craig Boutilier ALM 14 0 0 18 Feb 2026
When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation Mubashara Akhtar Anka Reuel Prajna Soni Sanchit Ahuja Pawan Sasanka Ammanamanchi ... Mrinmaya Sachan Stella Biderman Zeerak Talat Avijit Ghosh Irene Solaiman ALM ELM VLM 31 0 0 18 Feb 2026
References Improve LLM Alignment in Non-Verifiable Domains Kejian Shi Yixin Liu Peifeng Wang Alexander R. Fabbri Shafiq Joty Arman Cohan ALM 15 0 0 18 Feb 2026
What Is Missing: Interpretable Ratings for Large Language Model Outputs Nicholas Stranges Yimin Yang ALM 0 0 0 17 Feb 2026
ResearchGym: Evaluating Language Model Agents on Real-World AI Research Aniketh Garikaparthi Manasi Patwardhan Arman Cohan LLMAG ALM ELM 36 0 0 16 Feb 2026
Who Do LLMs Trust? Human Experts Matter More Than Other LLMs Anooshka Bajaj Zoran Tiganj ALM 18 0 0 14 Feb 2026
Tutoring Large Language Models to be Domain-adaptive, Precise, and Safe Somnath Banerjee ALM 15 0 0 14 Feb 2026
Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts Chen Yang Guangyue Peng Jiaying Zhu Ran Le Ruixiang Feng ... Yunzhi Xu Zekai Wang Zhenwei An Zhicong Sun Zongchao Chen ALM MoE LRM 13 0 0 13 Feb 2026
Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments Romain Froger Pierre Andrews Matteo Bettini Amar Budhiraja Ricardo Silveira Cabral ... Mengjue Wang Ian Yu Amine Benhalloum Grégoire Mialon Thomas Scialom LLMAG ALM ELM 70 0 1 12 Feb 2026
Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation Bowei He Yankai Chen Xiaokun Zhang Linghe Kong Philip S. Yu Xue Liu Chen Ma SyDa ALM 31 0 0 12 Feb 2026
RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty Ziqian Zhang Xingjian Hu Yue Huang Kai Zhang Ruoxi Chen ... Qingsong Wen Kaidi Xu Xiangliang Zhang Neil Zhenqiang Gong Lichao Sun ALM 46 0 0 12 Feb 2026
Benchmark Illusion: Disagreement among LLMs and Its Scientific Consequences Eddie Yang Dashun Wang ALM 18 0 0 12 Feb 2026
Are Aligned Large Language Models Still Misaligned? Usman Naseem Gautam Siddharth Kashyap Rafiq Ali Ebad Shabbir Sushant Kumar Ray Abdullah Mohammad Agrima Seth ALM 12 0 0 11 Feb 2026
Fine-Tuning GPT-5 for GPU Kernel Generation Ali Tehrani Yahya Emara Essam Wissam Wojciech Paluch Waleed Atallah Łukasz Dudziak Mohamed S. Abdelfattah ALM 58 0 0 11 Feb 2026
Can Large Language Models Make Everyone Happy? Usman Naseem Gautam Siddharth Kashyap Ebad Shabbir Sushant Kumar Ray Abdullah Mohammad Rafiq Ali ALM 62 0 0 11 Feb 2026
Scaling Reward Modeling without Human Supervision Jingxuan Fan Yueying Li Zhenting Qi Dinghuai Zhang Kianté Brantley Sham M. Kakade Hanlin Zhang OffRL ALM LRM 5 0 1 11 Feb 2026
FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models Annemette Brok Pirchert Jacob Nielsen Mogens Henrik From Lukas Galke Poech Peter Schneider-Kamp MoE FedML ALM 28 0 0 09 Feb 2026
InfiCoEvalChain: A Blockchain-Based Decentralized Framework for Collaborative LLM Evaluation Yifan Yang Jinjia Li Kunxi Li Puhao Zheng Yuanyi Wang Zheyan Qu Yang Yu Jianmin Wu Ming Li Hongxia Yang ALM 15 0 0 09 Feb 2026
Whose Name Comes Up? Benchmarking and Intervention-Based Auditing of LLM-Based Scholar Recommendation Lisette Espin-Noboa Gonzalo Gabriel Mendez ALM 25 0 0 09 Feb 2026
When the Model Said Ño Comment', We Knew Helpfulness Was Dead, Honesty Was Alive, and Safety Was Terrified Gautam Siddharth Kashyap Mark Dras Usman Naseem ALM MoE 16 0 0 07 Feb 2026
R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging Yanlin Lai Mitt Huang Hangyu Guo Xiangfeng Wang Haodong Li ... Qi Han Chun Yuan Zheng Ge Xiangyu Zhang Daxin Jiang OffRL ALM LRM 79 0 0 06 Feb 2026
AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents Haotian Chen Xin Cong Shengda Fan Yuyang Fu Ziqin Gong ... Yukun Yan Zhong Zhang Yankai Lin Zhiyuan Liu Maosong Sun ALM LRM 50 0 0 06 Feb 2026
Aligning Large Language Model Behavior with Human Citation Preferences Kenichiro Ando Tatsuya Harada ALM 731 0 0 05 Feb 2026
SAIL: Self-Amplified Iterative Learning for Diffusion Model Alignment with Minimal Human Feedback Xiaoxuan He Siming Fu Wanli Li Zhiyuan Li Dacheng Yin Kang Rong Fengyun Rao Bo Zhang ALM 42 0 0 05 Feb 2026
Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge Fiona Lau ALM ELM 16 0 0 04 Feb 2026
Scaling Agentic Verifier for Competitive Coding Zeyao Ma Jing Zhang Xiaokang Zhang Jiaxi Yang Zongmeng Zhang ... Lei Zhang Hao Zheng Wenting Zhao Junyang Lin Binyuan Hui ALM LRM 69 0 0 04 Feb 2026
Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework Nora Petrova Andrew Gordon Enzo Blindow ALM 14 0 0 03 Feb 2026
What LLMs Think When You Don't Tell Them What to Think About? Yongchan Kwon James Zou ALM 61 0 0 02 Feb 2026
Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning Ethan Mendes Jungsoo Park Alan Ritter OffRL ALM LRM 47 0 0 02 Feb 2026
Aligning Language Model Benchmarks with Pairwise Preferences Marco Gutierrez Xinyi Leng Hannah Cyberey Jonathan Richard Schwarz Ahmed Alaa Thomas Hartvigsen ALM 45 0 0 02 Feb 2026
PeerRank: Autonomous LLM Evaluation Through Web-Grounded, Bias-Controlled Peer Review Yanki Margalit Erni Avram Ran Taig Oded Margalit Nurit Cohen-Inger ALM ELM LRM 56 0 0 01 Feb 2026
Judging the Judges: Human Validation of Multi-LLM Evaluation for High-Quality K--12 Science Instructional Materials Peng He Zhaohui Li Zeyuan Wang Jinjun Xiong Tingting Li ALM ELM 34 0 0 31 Jan 2026
Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models Shi Fu Yingjie Wang Shengchao Hu Peng Wang Dacheng Tao ALM LRM 43 0 0 30 Jan 2026
CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning Ji Shi Peiming Guo Meishan Zhang Miao Zhang Xuebo Liu Min Zhang Weili Guan ALM 31 0 0 30 Jan 2026

Loading #Papers per Month with "ALM"

Past speakers

Name (-)

Top Contributors

Name (-)

Top Organizations at ResearchTrend.AI

Name (-)

Social Events

Date	Location	Event
No social events available