Perception in Reflection

9 April 2025

Papers citing "Perception in Reflection"

31 / 31 papers shown

Title
Unhackable Temporal Rewarding for Scalable Video MLLMs En Yu Kangheng Lin Liang Zhao Yana Wei Zining Zhu ... Jianjian Sun Zheng Ge Xinsong Zhang Jingyu Wang Wenbing Tao 106 9 0 17 Feb 2025
PerPO: Perceptual Preference Optimization via Discriminative Rewarding Zining Zhu Liang Zhao Kangheng Lin Jinze Yang En Yu Chenglong Liu Haoran Wei Jianjian Sun Zheng Ge Xiangyu Zhang 62 4 0 05 Feb 2025
LiPO: Listwise Preference Optimization through Learning-to-Rank Tianqi Liu Zhen Qin Junru Wu Jiaming Shen Misha Khalman ... Mohammad Saleh Simon Baumgartner Jialu Liu Peter J. Liu Xuanhui Wang 313 59 0 28 Jan 2025
LLaVA-Critic: Learning to Evaluate Multimodal Models Tianyi Xiong Xinze Wang Dong Guo Qinghao Ye Haoqi Fan Quanquan Gu Heng Huang Chunyuan Li MLLM VLM LRM 116 53 0 03 Oct 2024
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation Yuang Peng Yuxin Cui Haomiao Tang Zekun Qi Runpei Dong Jing Bai Chunrui Han Zheng Ge Xiangyu Zhang Shu-Tao Xia EGVM 142 38 0 24 Jun 2024
Understanding the performance gap between online and offline alignment algorithms Yunhao Tang Daniel Guo Zeyu Zheng Daniele Calandriello Yuan Cao ... Rémi Munos Bernardo Avila-Pires Michal Valko Yong Cheng Will Dabney OffRL OnRL 100 75 0 14 May 2024
ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization Mengsha Liu Daoyuan Chen Yaliang Li Guian Fang Ying Shen 61 22 0 17 Mar 2024
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs Shengbang Tong Zhuang Liu Yuexiang Zhai Yi-An Ma Yann LeCun Saining Xie VLM MLLM 100 347 0 11 Jan 2024
V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs Penghao Wu Saining Xie LRM 95 158 0 21 Dec 2023
OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation Qidong Huang Xiao-wen Dong Pan Zhang Bin Wang Conghui He Jiaqi Wang Dahua Lin Weiming Zhang Neng H. Yu MLLM 124 206 0 29 Nov 2023
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning Ning Miao Yee Whye Teh Tom Rainforth ReLM LRM 55 135 0 01 Aug 2023
ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning Liang Zhao En Yu Zheng Ge Jinrong Yang Hao-Ran Wei ... Jian‐Yuan Sun Yuang Peng Runpei Dong Chunrui Han Xiangyu Zhang MLLM LRM 62 54 0 18 Jul 2023
Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning Fuxiao Liu Kevin Qinghong Lin Linjie Li Jianfeng Wang Yaser Yacoob Lijuan Wang VLM MLLM 113 286 0 26 Jun 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 387 4,139 0 29 May 2023
FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph Parsing Zhuang Li Yuyang Chai Terry Yue Zhuo Zhuang Li Gholamreza Haffari Fei Li Donghong Ji Quan Hung Tran 84 33 0 27 May 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 286 955 0 27 Apr 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 567 4,910 0 17 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 429 4,641 0 30 Jan 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 434 2,955 0 06 Oct 2022
Reasoning about Actions over Visual and Linguistic Modalities: A Survey Shailaja Keyur Sampat Maitreya Patel Subhasish Das Yezhou Yang Chitta Baral ReLM LM&Ro LRM 59 12 0 15 Jul 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 883 13,176 0 04 Mar 2022
Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's Progressive Matrices Mikolaj Malkiñski Jacek Mańdziuk 189 43 0 28 Jan 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 823 9,644 0 28 Jan 2022
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 706 6,121 0 29 Apr 2021
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 611 4,905 0 23 Jan 2020
nocaps: novel object captioning at scale Harsh Agrawal Karan Desai Yufei Wang Xinlei Chen Rishabh Jain Mark Johnson Dhruv Batra Devi Parikh Stefan Lee Peter Anderson VLM 131 486 0 20 Dec 2018
Mask R-CNN Kaiming He Georgia Gkioxari Piotr Dollár Ross B. Girshick ObjD 360 27,244 0 20 Mar 2017
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 2.2K 194,426 0 10 Dec 2015
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren Kaiming He Ross B. Girshick Jian Sun AIMat ObjD 525 62,360 0 04 Jun 2015
Microsoft COCO Captions: Data Collection and Evaluation Server Xinlei Chen Hao Fang Nayeon Lee Ramakrishna Vedantam Saurabh Gupta Piotr Dollar C. L. Zitnick 218 2,493 0 01 Apr 2015
A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning Stéphane Ross Geoffrey J. Gordon J. Andrew Bagnell OffRL 236 3,233 0 02 Nov 2010