Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge

14 March 2018

Oyvind Tafjord

Papers citing "Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge"

50 / 292 papers shown

Title
Automatic Transmission for LLM Tiers: Optimizing Cost and Accuracy in Large Language Models Injae Na Keonwoong Noh Woohwan Jung 54 0 0 27 May 2025
FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models Hao Kang Zichun Yu Chenyan Xiong MoE 64 0 0 26 May 2025
LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models Fengqi Zhu Rongzhen Wang Shen Nie Xiaolu Zhang Chunwei Wu ... Jun Zhou Jianfei Chen Yankai Lin Ji-Rong Wen Chongxuan Li 175 2 0 25 May 2025
ALPS: Attention Localization and Pruning Strategy for Efficient Alignment of Large Language Models Hao Chen Haoze Li Zhiqing Xiao Lirong Gao Qi Zhang Xiaomeng Hu Ningtao Wang Xing Fu Junbo Zhao 187 0 0 24 May 2025
COUNTDOWN: Contextually Sparse Activation Filtering Out Unnecessary Weights in Down Projection Jaewon Cheon Pilsung Kang 78 0 0 23 May 2025
Data Mixing Can Induce Phase Transitions in Knowledge Acquisition Xinran Gu Kaifeng Lyu Jiazheng Li Jingzhao Zhang 75 0 0 23 May 2025
CoMoE: Contrastive Representation for Mixture-of-Experts in Parameter-Efficient Fine-tuning Jinyuan Feng Chaopeng Wei Tenghai Qiu Tianyi Hu Zhiqiang Pu MoE 73 0 0 23 May 2025
DASH: Input-Aware Dynamic Layer Skipping for Efficient LLM Inference with Markov Decision Policies Ning Yang Fangxin Liu Junjie Wang Tao Yang Kan Liu Haibing Guan Li Jiang AI4CE 82 0 0 23 May 2025
Self-Training Large Language Models with Confident Reasoning Hyosoon Jang Yunhui Jang Sungjae Lee Jungseul Ok SungSoo Ahn ReLM LRM 76 0 0 23 May 2025
DataRater: Meta-Learned Dataset Curation Dan A. Calian Gregory Farquhar Iurii Kemaev Luisa M. Zintgraf Matteo Hessel ... András Gyorgy Tom Schaul Jeffrey Dean Hado van Hasselt David Silver 153 1 0 23 May 2025
Training with Pseudo-Code for Instruction Following Praveen Venkateswaran Rudra Murthy Riyaz Ahmad Bhat Danish Contractor ALM LRM 84 0 0 23 May 2025
How Can I Publish My LLM Benchmark Without Giving the True Answers Away? Takashi Ishida Thanawat Lodkaew Ikko Yamane 189 0 0 23 May 2025
LongMagpie: A Self-synthesis Method for Generating Large-scale Long-context Instructions Chaochen Gao Xing Wu Zijia Lin Debing Zhang Songlin Hu SyDa 198 0 0 22 May 2025
Locate-then-Merge: Neuron-Level Parameter Fusion for Mitigating Catastrophic Forgetting in Multimodal LLMs Zeping Yu Sophia Ananiadou MoMe KELM CLL 88 0 0 22 May 2025
NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics Zhihang Cai Xingjun Zhang Zhendong Tan Zheng Wei MQ 193 0 0 22 May 2025
Zebra-Llama: Towards Extremely Efficient Hybrid Models Mingyu Yang Mehdi Rezagholizadeh Guihong Li Vikram Appia Emad Barsoum 64 0 0 22 May 2025
Finetuning-Activated Backdoors in LLMs Thibaud Gloaguen Mark Vero Robin Staab Martin Vechev AAML 181 0 0 22 May 2025
Social Bias in Popular Question-Answering Benchmarks Angelie Kraft Judith Simon Sonja Schimmler 104 0 0 21 May 2025
Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought Tencent Hunyuan Team Ao Liu Botong Zhou Can Xu Chayse Zhou ... Bingxin Qu Bolin Ni Boyu Wu Chen Li Cheng-peng Jiang MoE LRM AI4CE 144 0 0 21 May 2025
YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering Jennifer D'Souza Hamed Babaei Giglou Quentin Münch ELM 99 0 0 20 May 2025
ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models Raghav Singhal Kaustubh Ponkshe Rohit Vartak Praneeth Vepakomma 109 0 0 20 May 2025
SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment Wonje Jeung Sangyeon Yoon Minsuk Kahng Albert No LRM LLMSV 165 1 0 20 May 2025
Shadow-FT: Tuning Instruct via Base Taiqiang Wu Runming Yang Jiayi Li Pengfei Hu Ngai Wong Yujiu Yang 223 0 0 19 May 2025
PSC: Extending Context Window of Large Language Models via Phase Shift Calibration Wenqiao Zhu Chao Xu Lulu Wang Jun Wu 91 1 0 18 May 2025
SGDPO: Self-Guided Direct Preference Optimization for Language Model Alignment Wenqiao Zhu Ji Liu Lulu Wang Jun Wu Yulun Zhang 82 0 0 18 May 2025
PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning Falong Fan Xi Li LLMAG AAML 77 0 0 16 May 2025
Rethinking Prompt Optimizers: From Prompt Merits to Optimization Zixiao Zhu Hanzhang Zhou Zijian Feng Tianjiao Li Chua Jia Jim Deryl Mak Lee Onn Gee Wah Ng Kezhi Mao LRM 115 0 0 15 May 2025
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information Joshua Harris Fan Grayson Felix Feldman Timothy Laurence Toby Nonnenmacher ... Leo Loman Selina Patel Thomas Finnie Samuel Collins Michael Borowitz AI4MH LM&MA ELM 105 0 0 09 May 2025
Stability in Single-Peaked Strategic Resource Selection Games Henri Zeiler 118 2 0 09 May 2025
ReplaceMe: Network Simplification via Depth Pruning and Transformer Block Linearization Dmitriy Shopkhoev Ammar Ali Magauiya Zhussip Valentin Malykh Stamatios Lefkimmiatis N. Komodakis Sergey Zagoruyko VLM 467 0 0 05 May 2025
Mixture of Sparse Attention: Content-Based Learnable Sparse Attention via Expert-Choice Routing Piotr Piekos Róbert Csordás Jürgen Schmidhuber MoE VLM 237 2 0 01 May 2025
Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang Qing Yang Zhiyuan Zeng Liliang Ren Liu Liu ... Jianfeng Gao Weizhu Chen Shuaiqiang Wang Simon Shaolei Du Yelong Shen OffRL ReLM LRM 299 47 0 29 Apr 2025
Aleph-Alpha-GermanWeb: Improving German-language LLM pre-training with model-based data curation and synthetic data generation Thomas F Burns Letitia Parcalabescu Stephan Wäldchen Michael Barlow Gregor Ziegltrum Volker Stampa Bastian Harren Björn Deiseroth SyDa 121 0 0 24 Apr 2025
Unified Attacks to Large Language Model Watermarks: Spoofing and Scrubbing in Unauthorized Knowledge Distillation Xin Yi Shunfan Zhengc Linlin Wanga Xiaoling Wang Liang He Liang He AAML 447 0 0 24 Apr 2025
Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction Yuxin Jiang Yijiao Wang Chuhan Wu Xinyi Dai Yan Xu ... Yucheng Wang Xin Jiang Lifeng Shang Ruiming Tang Wenjie Wang 113 0 0 22 Apr 2025
Efficient Pretraining Length Scaling Bohong Wu Shen Yan Sijun Zhang Jianqiao Lu Yutao Zeng Ya Wang Xun Zhou 467 0 0 21 Apr 2025
Learning to Reason under Off-Policy Guidance Jianhao Yan Yafu Li Zican Hu Zhi Wang Ganqu Cui Xiaoye Qu Yu Cheng Yue Zhang OffRL LRM 115 17 0 21 Apr 2025
aiXamine: Simplified LLM Safety and Security Fatih Deniz Dorde Popovic Yazan Boshmaf Euisuh Jeong M. Ahmad Sanjay Chawla Issa M. Khalil ELM 302 0 0 21 Apr 2025
Empirical Evaluation of Knowledge Distillation from Transformers to Subquadratic Language Models Patrick Haller Jonas Golde Alan Akbik 112 0 0 19 Apr 2025
Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models Xinlin Zhuang Jiahui Peng Ren Ma Yucheng Wang Tianyi Bai Xingjian Wei Jiantao Qiu Chi Zhang Ying Qian Conghui He 140 0 0 19 Apr 2025
From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs Jiliang Ni Jiachen Pu Zhongyi Yang Kun Zhou Hui Wang Xiaoliang Xiao Dakui Wang Xin Li Jingfeng Luo Conggang Hu 104 0 0 18 Apr 2025
FLIP Reasoning Challenge Andreas Plesner Turlan Kuzhagaliyev Roger Wattenhofer AAML VLM LRM 164 0 0 16 Apr 2025
Transferable text data distillation by trajectory matching Rong Yao Hailin Hu Yifei Fu Hanting Chen Wenyi Fang Fanyi Du Kai Han Yunhe Wang 82 0 0 14 Apr 2025
Improving Multilingual Capabilities with Cultural and Local Knowledge in Large Language Models While Enhancing Native Performance Ram Mohan Rao Kadiyala Siddartha Pullakhandam Siddhant Gupta Drishti Sharma Jebish Purbey Kanwal Mehreen Muhammad Arham Hamza Farooq 111 0 0 13 Apr 2025
MDIT: A Model-free Data Interpolation Method for Diverse Instruction Tuning Yangning Li Zihua Lan Lv Qingsong Hai-Tao Zheng Hai-Tao Zheng 94 0 0 09 Apr 2025
RAISE: Reinforced Adaptive Instruction Selection For Large Language Models Lv Qingsong Yangning Li Zihua Lan Zishan Xu Jiwei Tang Hai-Tao Zheng Wenhao Jiang Wanshi Xu Philip S. Yu 167 2 0 09 Apr 2025
Achieving binary weight and activation for LLMs using Post-Training Quantization Siqing Song Chuang Wang Ruiqi Wang Yi Yang Xuyao Zhang MQ 116 0 0 07 Apr 2025
STEP: Staged Parameter-Efficient Pre-training for Large Language Models Kazuki Yano Takumi Ito Jun Suzuki LRM 130 1 0 05 Apr 2025
Efficient Evaluation of Large Language Models via Collaborative Filtering Xu-Xiang Zhong Chao Yi Han-Jia Ye 103 0 0 05 Apr 2025
TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining Jeffrey Li Mohammadreza Armandpour Iman Mirzadeh Sachin Mehta Vaishaal Shankar ... Samy Bengio Oncel Tuzel Mehrdad Farajtabar Hadi Pouransari Fartash Faghri CLL KELM 138 0 0 02 Apr 2025