v1v2 (latest)

TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

9 May 2017

Luke Zettlemoyer

Papers citing "TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension"

50 / 1,823 papers shown

Title
Social Bias in Popular Question-Answering Benchmarks Angelie Kraft Judith Simon Sonja Schimmler 120 0 0 21 May 2025
Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought Tencent Hunyuan Team Ao Liu Botong Zhou Can Xu Chayse Zhou ... Bingxin Qu Bolin Ni Boyu Wu Chen Li Cheng-peng Jiang MoE LRM AI4CE 163 0 0 21 May 2025
Revealing Language Model Trajectories via Kullback-Leibler Divergence Ryo Kishino Yusuke Takase Momose Oyama Hiroaki Yamagiwa Hidetoshi Shimodaira 96 0 0 21 May 2025
InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation Yunjia Xi Jianghao Lin Menghui Zhu Yongzhao Xiao Zhuoying Ou ... Weiwen Liu Yasheng Wang Ruiming Tang Weinan Zhang Yong Yu 125 1 0 21 May 2025
RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection Yiming Huang Junyan Zhang Zihao Wang Biquan Bie Xuming Hu Yi R. Fung Xinlei He 133 0 0 21 May 2025
The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation Patrick Kahardipraja Reduan Achtibat Thomas Wiegand Wojciech Samek Sebastian Lapuschkin 151 0 0 21 May 2025
ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning Changtai Zhu Siyin Wang Ruijun Feng Kai Song Xipeng Qiu LRM 90 0 0 21 May 2025
Do RAG Systems Suffer From Positional Bias? Florin Cuconasu Simone Filice Guy Horowitz Y. Maarek Fabrizio Silvestri RALM 51 0 0 21 May 2025
VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models Heyang Liu Yuhao Wang Ziyang Cheng Ronghua Wu Qunshan Gu Yanfeng Wang Yu Wang AuLLM 88 0 0 21 May 2025
DisastIR: A Comprehensive Information Retrieval Benchmark for Disaster Management Kai Yin Xiangjue Dong Chengkai Liu Lipai Huang Yiming Xiao Zhewei Liu Ali Mostafavi James Caverlee 93 0 0 20 May 2025
sudoLLM : On Multi-role Alignment of Language Models Soumadeep Saha Akshay Chaturvedi Joy Mahapatra Utpal Garain 45 0 0 20 May 2025
Automatic Dataset Generation for Knowledge Intensive Question Answering Tasks Sizhe Yuen Ting Su Ziyang Wang Yali Du Adam Sobey 58 0 0 20 May 2025
s3: You Don't Need That Much Data to Train a Search Agent via RL Pengcheng Jiang Xueqiang Xu Jiacheng Lin Jinfeng Xiao Zifeng Wang Jimeng Sun Jiawei Han OffRL RALM AI4TS LRM 117 1 0 20 May 2025
Alignment-Augmented Speculative Decoding with Alignment Sampling and Conditional Verification Jikai Wang Zhenxu Tian Jilong Li Qingrong Xia Xinyu Duan Zhefeng Wang Baoxing Huai Min Zhang 61 0 0 19 May 2025
AMAQA: A Metadata-based QA Dataset for RAG Systems Davide Bruni Marco Avvenuti Nicola Tonellotto Maurizio Tesconi 73 0 0 19 May 2025
LightRetriever: A LLM-based Hybrid Retrieval Architecture with 1000x Faster Query Inference Guangyuan Ma Yongliang Ma Xuanrui Gou Zhenpeng Su Ming Zhou Songlin Hu RALM 90 0 0 18 May 2025
Disambiguation in Conversational Question Answering in the Era of LLM: A Survey Md Mehrab Tanjim Yeonjun In Xiang Chen Victor S. Bursztyn Ryan Rossi ... Guang-Jie Ren Vaishnavi Muppala Shun Jiang Yongsung Kim Chanyoung Park 130 0 0 18 May 2025
BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs Junxiao Yang Jinzhe Tu Haoran Liu Xiaoce Wang Chujie Zheng ... Caishun Chen Tiantian He Hongning Wang Yew-Soon Ong Minlie Huang LRM 107 0 0 18 May 2025
Truth Neurons Haohang Li Yupeng Cao Yangyang Yu Jordan W. Suchow Zining Zhu HILM MILM KELM 75 0 0 18 May 2025
Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation Yuhao Wang Ruiyang Ren Yucheng Wang Wayne Xin Zhao Jing Liu Hua Wu Haifeng Wang 72 0 0 17 May 2025
SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation Wenyi Yu Siyin Wang Xiaoyu Yang Xianzhao Chen Xiaohai Tian Jun Zhang Guangzhi Sun Lu Lu Yuxuan Wang Chao Zhang AuLLM 95 0 0 17 May 2025
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment Siliang Zeng Quan Wei William Brown Oana Frunza Yuriy Nevmyvaka Mingyi Hong LRM 113 2 0 17 May 2025
A Dataset for Spatiotemporal-Sensitive POI Question Answering Xiao Han Dayan Pan Xiangyu Zhao Xuyuan Hu Zhaolin Deng Xiangjie Kong Guojiang Shen 59 0 0 16 May 2025
A Systematic Analysis of Base Model Choice for Reward Modeling Kian Ahrabian Pegah Jandaghi Negar Mokhberian Sai Praneeth Karimireddy Jay Pujara 136 0 0 16 May 2025
MergeBench: A Benchmark for Merging Domain-Specialized LLMs Yifei He Siqi Zeng Yuzheng Hu Rui Yang Tong Zhang Han Zhao MoMe ALM 114 0 0 16 May 2025
Semantic Caching of Contextual Summaries for Efficient Question-Answering with Language Models Camille Couturier Spyros Mastorakis Haiying Shen Saravan Rajmohan Victor Rühle KELM 68 0 0 16 May 2025
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs Yaorui Shi Shihan Li Chang Wu Zhiyuan Liu Sihang Li Hengxing Cai An Zhang Xiang Wang ReLM LRM 166 0 0 16 May 2025
mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs Chuan Xu Qiaosheng Chen Yutong Feng Gong Cheng RALM 3DV VLM 110 0 0 16 May 2025
CL-RAG: Bridging the Gap in Retrieval-Augmented Generation with Curriculum Learning S. Wang Li Zhang Zheren Fu Zhendong Mao 58 0 0 15 May 2025
System Prompt Optimization with Meta-Learning Yumin Choi Jinheon Baek Sung Ju Hwang LLMAG 111 0 0 14 May 2025
PT-MoE: An Efficient Finetuning Framework for Integrating Mixture-of-Experts into Prompt Tuning Zongqian Li Yixuan Su Nigel Collier MoE 62 0 0 14 May 2025
Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging Hongjin Qian Zhengyang Liang RALM LRM 163 0 0 14 May 2025
WixQA: A Multi-Dataset Benchmark for Enterprise Retrieval-Augmented Generation Dvir Cohen Lin Burg Sviatoslav Pykhnivskyi Hagit Gur Stanislav Kovynov Olga Atzmon Gilad Barkan RALM 90 0 0 13 May 2025
Why Uncertainty Estimation Methods Fall Short in RAG: An Axiomatic Analysis Heydar Soudani Evangelos Kanoulas Faegheh Hasibi 135 0 0 12 May 2025
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation Jimeng Sun Xianrui Zhong Sizhe Zhou Jiawei Han RALM 81 0 0 12 May 2025
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining Xiaomi LLM-Core Team Bingquan Xia Bo Shen Cici Dawei Zhu ... Yun Wang Yue Yu Zhenru Lin Zhichao Song Zihao Yue MoE ReLM LRM AI4CE 171 7 0 12 May 2025
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection Kai Hua Steven Wu Ge Zhang Ke Shen LRM 85 0 0 12 May 2025
The Distracting Effect: Understanding Irrelevant Passages in RAG Chen Amiraz Florin Cuconasu Simone Filice Zohar Karnin 63 1 0 11 May 2025
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation Stefan Vasilev Christian Herold Baohao Liao Seyyed Hadi Hashemi Shahram Khadivi Christof Monz MU 490 0 0 09 May 2025
Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM Zehao Fan Garrett Gagnon Zhenyu Liu Liu Liu 67 0 0 09 May 2025
LLM-Independent Adaptive RAG: Let the Question Speak for Itself Maria Marina Nikolay Ivanov Sergey Pletenev Mikhail Salnikov Daria Galimzianova Nikita Krayko Vasily Konovalov Alexander Panchenko Viktor Moskvoretskii RALM 97 0 0 07 May 2025
ZeroSearch: Incentivize the Search Capability of LLMs without Searching Hao Sun Zile Qiao Jiayan Guo Xuanbo Fan Yingyan Hou Yong Jiang Pengjun Xie Yan Zhang Fei Huang Jingren Zhou OffRL 142 12 0 07 May 2025
A Reasoning-Focused Legal Retrieval Benchmark Lucia Zheng Neel Guha Javokhir Arifov Sarah Zhang Michal Skreta Christopher D. Manning Peter Henderson Daniel E. Ho AILaw RALM ELM 203 5 0 06 May 2025
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model Zuwei Long Yunhang Shen Chaoyou Fu Heting Gao Lijiang Li ... Jinlong Peng Haoyu Cao Ke Li Rongrong Ji Xing Sun 80 2 0 06 May 2025
Knowing You Don't Know: Learning When to Continue Search in Multi-round RAG through Self-Practicing Diji Yang Linda Zeng Jinmeng Rao Yize Zhang 80 0 0 05 May 2025
Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering Jihao Zhao Chunlai Zhou Biao Qin 119 0 0 05 May 2025
Rewriting Pre-Training Data Boosts LLM Performance in Math and Code Kazuki Fujii Yukito Tajima Sakae Mizuki Hinari Shimada Taihei Shiotani ... Kakeru Hattori Youmi Ma Hiroya Takamura Rio Yokota Naoaki Okazaki SyDa 162 1 0 05 May 2025
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions Yiming Du Wenyu Huang Danna Zheng Zhaowei Wang Sébastien Montella Mirella Lapata Kam-Fai Wong Jeff Z. Pan KELM MU 237 5 0 01 May 2025
OET: Optimization-based prompt injection Evaluation Toolkit Jinsheng Pan Xiaogeng Liu Chaowei Xiao AAML 195 0 0 01 May 2025
EnronQA: Towards Personalized RAG over Private Documents Michael J. Ryan Danmei Xu Chris Nivera Daniel Campos SILM 138 2 0 01 May 2025