LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete
Information from Lateral Thinking Puzzles

v1v2v3 (latest)

LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking Puzzles

21 August 2023

ArXiv (abs)PDF HTML

Papers citing "LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking Puzzles"

8 / 8 papers shown

Title
Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint Heekyung Lee Jiaxin Ge Tsung-Han Wu Minwoo Kang Trevor Darrell David M. Chan ReLM CoGe LRM 45 0 0 29 May 2025
Evaluation Hallucination in Multi-Round Incomplete Information Lateral-Driven Reasoning Tasks Wenhan Dong Tianyi Hu Jingyi Zheng Zhen Sun Yuemeng Zhao Yule Liu Xinlei He Xinyi Huang LRM ELM 28 0 0 28 May 2025
Table-R1: Region-based Reinforcement Learning for Table Understanding Zhenhe Wu Jian Yang Jiaheng Liu Xianjie Wu Changzai Pan Jie Zhang Yu Zhao Shuangyong Song Yongxiang Li Zhoujun Li LMTD LRM 80 1 0 18 May 2025
Corrections Meet Explanations: A Unified Framework for Explainable Grammatical Error Correction Jingheng Ye Shang Qin Hai-Tao Zheng Hai-Tao Zheng Shen Wang Qingsong Wen 109 0 0 24 Feb 2025
One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs Hai-Tao Zheng Jiayi Kuang Haojing Huang Zhikun Xu Xinnian Liang ... Jue Chen Chao Qu Ying Shen Hai-Tao Zheng Philip S. Yu LRM 142 2 0 12 Feb 2025
Exploring the Implicit Semantic Ability of Multimodal Large Language Models: A Pilot Study on Entity Set Expansion Hebin Wang Yangning Li Hai-Tao Zheng Hai-Tao Zheng Wenhao Jiang Hong-Gee Kim 145 0 0 03 Jan 2025
TableBench: A Comprehensive and Complex Benchmark for Table Question Answering Xianjie Wu Jian Yang Linzheng Chai Ge Zhang Jiaheng Liu ... Xianfu Cheng Tianzhen Sun Guanglin Niu Tongliang Li Zhoujun Li LMTD ELM 106 40 0 17 Aug 2024
Baichuan 2: Open Large-scale Language Models Ai Ming Yang Bin Xiao Bingning Wang Borong Zhang Ce Bian ... Youxin Jiang Yuchen Gao Yupeng Zhang Guosheng Dong Zhiying Wu ELM LRM 332 755 0 19 Sep 2023