MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback

MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback

17 October 2024

Aditya Parashar

Papers citing "MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback"

14 / 14 papers shown

Title
Enhancing the Learning Experience: Using Vision-Language Models to Generate Questions for Educational Videos Markos Stamatakis Joshua Berger Christian Wartena Ralph Ewerth Anett Hoppe AI4Ed 89 0 0 03 May 2025
AttackSeqBench: Benchmarking Large Language Models' Understanding of Sequential Patterns in Cyber Attacks Javier Yong Haokai Ma Yunshan Ma Anis Yusof Zhenkai Liang E. Chang 74 0 0 05 Mar 2025
Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge Ravi Raju Swayambhoo Jain Bo Li Jonathan Li Urmish Thakker ALM ELM 98 11 0 16 Aug 2024
AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments Samuel Schmidgall Rojin Ziaei Carl Harris Eduardo Reis Jeffrey Jopling Michael Moor 89 47 0 13 May 2024
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models Seungone Kim Juyoung Suk Shayne Longpre Bill Yuchen Lin Jamin Shin Sean Welleck Graham Neubig Moontae Lee Kyungjae Lee Minjoon Seo MoMe ALM ELM 75 182 0 02 May 2024
README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP Zonghai Yao Nandyala Siddharth Kantu Guanghao Wei Hieu Tran Zhangqi Duan Sunjae Kwon Zhichao Yang Readme annotation team Hong-ye Yu 45 7 0 24 Dec 2023
The Generative AI Paradox: "What It Can Create, It May Not Understand" Peter West Ximing Lu Nouha Dziri Faeze Brahman Linjie Li ... Khyathi Chandu Benjamin Newman Pang Wei Koh Allyson Ettinger Yejin Choi AIMat 62 74 0 31 Oct 2023
Understanding the Effects of RLHF on LLM Generalisation and Diversity Robert Kirk Ishita Mediratta Christoforos Nalmpantis Jelena Luketina Eric Hambro Edward Grefenstette Roberta Raileanu AI4CE ALM 136 135 0 10 Oct 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 182 4,085 0 09 Jun 2023
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training Zeqiu Wu Yushi Hu Weijia Shi Nouha Dziri Alane Suhr Prithviraj Ammanabrolu Noah A. Smith Mari Ostendorf Hannaneh Hajishirzi ALM 77 317 0 02 Jun 2023
AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback Yann Dubois Xuechen Li Rohan Taori Tianyi Zhang Ishaan Gulrajani Jimmy Ba Carlos Guestrin Percy Liang Tatsunori B. Hashimoto ALM 71 569 0 22 May 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 368 13,788 0 15 Mar 2023
Educational Question Generation of Children Storybooks via Question Type Distribution Learning and Event-Centric Summarization Zhenjie Zhao Yufang Hou Dakuo Wang Mo Yu Chengzhong Liu Xiaojuan Ma AI4Ed 49 41 0 27 Mar 2022
Zero-shot Fact Verification by Claim Generation Liangming Pan Wenhu Chen Wenhan Xiong Min-Yen Kan Wenjie Wang 42 57 0 31 May 2021