Open Source Language Models Can Provide Feedback: Evaluating LLMs'
Ability to Help Students Using GPT-4-As-A-Judge

Open Source Language Models Can Provide Feedback: Evaluating LLMs' Ability to Help Students Using GPT-4-As-A-Judge

8 May 2024

Charles Koutcheme

Papers citing "Open Source Language Models Can Provide Feedback: Evaluating LLMs' Ability to Help Students Using GPT-4-As-A-Judge"

16 / 16 papers shown

Title
WHERE and WHICH: Iterative Debate for Biomedical Synthetic Data Augmentation Zhengyi Zhao Shubo Zhang Bin Liang Binyang Li Kam-Fai Wong SyDa 56 0 0 31 Mar 2025
Conversational User-AI Intervention: A Study on Prompt Rewriting for Improved LLM Response Generation Rupak Sarkar Bahareh Sarrafzadeh N. Chandrasekaran Nagu Rangan Philip Resnik Longqi Yang S. Jauhar 47 1 0 21 Mar 2025
Group Preference Alignment: Customized LLM Response Generation from In-Situ Conversations Ishani Mondal Jack W. Stokes S. Jauhar Longqi Yang Mengting Wan Xiaofeng Xu Xia Song Jennifer Neville 53 0 0 11 Mar 2025
Can LLM Assist in the Evaluation of the Quality of Machine Learning Explanations? Bo Wang Yiqiao Li Jianlong Zhou Fang Chen XAI ELM 42 0 0 28 Feb 2025
Breaking the Programming Language Barrier: Multilingual Prompting to Empower Non-Native English Learners James Prather B. Reeves Paul Denny Juho Leinonen Stephen MacNeil ... Thezyrie Amarouche Bailey Kimmel Jared Wright Musa Blake Gweneth Barbre 74 2 0 17 Dec 2024
Howzat? Appealing to Expert Judgement for Evaluating Human and AI Next-Step Hints for Novice Programmers Neil C. C. Brown Pierre Weill-Tessier Juho Leinonen Paul Denny Michael Kölling 77 0 0 27 Nov 2024
On the Opportunities of Large Language Models for Programming Process Data John Edwards Arto Hellas Juho Leinonen 39 18 0 01 Nov 2024
Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions Angana Borah Rada Mihalcea 42 8 0 03 Oct 2024
ACE: A LLM-based Negotiation Coaching System Ryan Shea Aymen Kallala Xin Lucy Liu Michael W. Morris Zhou Yu LLMAG 19 5 0 02 Oct 2024
Evaluating Language Models for Generating and Judging Programming Feedback Charles Koutcheme Nicola Dainese Arto Hellas Sami Sarsa Juho Leinonen Syed Ashraf Paul Denny ELM 28 2 0 05 Jul 2024
Prompt Problems: A New Programming Exercise for the Generative AI Era Paul Denny Juho Leinonen James Prather Andrew Luxton-Reilly Thezyrie Amarouche Brett A. Becker Brent N. Reeves 38 84 0 10 Nov 2023
AI-TA: Towards an Intelligent Question-Answer Teaching Assistant using Open-Source LLMs Yann Hicke Anmol Agarwal Qianou Ma Paul Denny AI4Ed 34 24 0 05 Nov 2023
JudgeLM: Fine-tuned Large Language Models are Scalable Judges Lianghui Zhu Xinggang Wang Xinlong Wang ELM ALM 56 108 0 26 Oct 2023
Thrilled by Your Progress! Large Language Models (GPT-4) No Longer Struggle to Pass Assessments in Higher Education Programming Courses Jaromír Šavelka Arav Agarwal Marshall An Chris Bogart M. Sakr ELM 53 106 0 15 Jun 2023
Practical and Ethical Challenges of Large Language Models in Education: A Systematic Scoping Review Lixiang Yan Lele Sha Linxuan Zhao Yuheng Li Roberto Martínez-Maldonado Guanliang Chen Xinyu Li Yueqiao Jin D. Gašević SyDa ELM AI4Ed 59 268 0 17 Mar 2023
Measuring Coding Challenge Competence With APPS Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora ... Collin Burns Samir Puranik Horace He D. Song Jacob Steinhardt ELM AIMat ALM 208 624 0 20 May 2021