Title
Do LLMs Need to Think in One Language? Correlation between Latent Language and Task Performance Shintaro Ozaki Tatsuya Hiraoka Hiroto Otake Hiroki Ouchi Masaru Isonuma ... Kentaro Inui Taro Watanabe Yusuke Miyao Yohei Oseki Yu Takagi LRM 15 0 0 27 May 2025
Resampling Benchmark for Efficient Comprehensive Evaluation of Large Vision-Language Models Teppei Suzuki Keisuke Ozawa VLM 117 0 0 14 Apr 2025
Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models Youmi Ma Sakae Mizuki Kazuki Fujii Taishi Nakamura Masanari Ohi ... Takumi Okamoto Shigeki Ishida Rio Yokota Hiroya Takamura Naoaki Okazaki ALM 88 0 0 31 Mar 2025
How LLMs Learn: Tracing Internal Representations with Sparse Autoencoders Tatsuro Inaba Kentaro Inui Yusuke Miyao Yohei Oseki Benjamin Heinzerling Yu Takagi 89 0 0 09 Mar 2025
Analyzing the Safety of Japanese Large Language Models in Stereotype-Triggering Prompts Akito Nakanishi Yukie Sano Geng Liu Francesco Pierri 70 0 0 03 Mar 2025
Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization Taishi Nakamura Takuya Akiba Kazuki Fujii Yusuke Oda Rio Yokota Jun Suzuki MoMe MoE 112 1 0 26 Feb 2025
Do Multilingual LLMs Think In English? Lisa Schut Y. Gal Sebastian Farquhar 60 12 0 24 Feb 2025
Constructing Multimodal Datasets from Scratch for Rapid Development of a Japanese Visual Language Model Keito Sasagawa Koki Maeda Issa Sugiura Shuhei Kurita Naoaki Okazaki Daisuke Kawahara VLM 35 0 0 30 Oct 2024
JMedBench: A Benchmark for Evaluating Japanese Biomedical Large Language Models Junfeng Jiang Jiahao Huang Akiko Aizawa LM&MA 61 4 0 20 Sep 2024
Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? Chengzhi Zhong Fei Cheng Qianying Liu Junfeng Jiang Zhen Wan Chenhui Chu Yugo Murawaki Sadao Kurohashi LRM 54 19 0 20 Aug 2024
Analyzing Social Biases in Japanese Large Language Models Hitomi Yanaka Namgi Han Ryoma Kumon Jie Lu Masashi Takeshita Ryo Sekizawa Taisei Kato Hiromi Arai 80 3 0 04 Jun 2024
Rapidly Developing High-quality Instruction Data and Evaluation Benchmark for Large Language Models with Minimal Human Effort: A Case Study on Japanese Yikun Sun Zhen Wan Nobuhiro Ueda Sakiko Yahata Fei Cheng Chenhui Chu Sadao Kurohashi ALM ELM 28 5 0 06 Mar 2024
Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca Pinzhen Chen Shaoxiong Ji Nikolay Bogoychev Andrey Kutuzov Barry Haddow Kenneth Heafield 66 46 0 16 Sep 2023
Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions Federico Bianchi Mirac Suzgun Giuseppe Attanasio Paul Röttger Dan Jurafsky Tatsunori Hashimoto James Zou ALM LM&MA LRM 50 196 0 14 Sep 2023
KoBBQ: Korean Bias Benchmark for Question Answering Jiho Jin Jiseon Kim Nayeon Lee Haneul Yoo Alice Oh Hwaran Lee 56 33 0 31 Jul 2023
CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models Yufei Huang Deyi Xiong ALM 67 17 0 28 Jun 2023
Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models Tomoki Sugimoto Yasumasa Onoe Hitomi Yanaka 86 4 0 19 Jun 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 244 4,186 0 09 Jun 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 291 3,712 0 29 May 2023
Do Large Language Models Know What They Don't Know? Zhangyue Yin Qiushi Sun Qipeng Guo Jiawen Wu Xipeng Qiu Xuanjing Huang ELM AI4MH 50 158 0 29 May 2023
Towards a Common Understanding of Contributing Factors for Cross-Lingual Transfer in Multilingual Language Models: A Review Fred Philippy Siwen Guo Shohreh Haddadan LRM 40 33 0 26 May 2023
Compositional Evaluation on Japanese Textual Entailment and Similarity Hitomi Yanaka K. Mineshima 56 24 0 09 Aug 2022
Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models Aarohi Srivastava Abhinav Rastogi Abhishek Rao Abu Awal Md Shoeb Abubakar Abid ... Zhuoye Zhao Zijian Wang Zijie J. Wang Zirui Wang Ziyi Wu ELM 97 1,739 0 09 Jun 2022
mdx: A Cloud Platform for Supporting Data Science and Cross-Disciplinary Research Collaborations Toyotaro Suzumura Akiyoshi Sugiki Hiroyuki Takizawa A. Imakura Hiroshi Nakamura ... Toshio Endo S. Ohshima K. Fukazawa S. Date Toshihiro Uchibayashi 27 23 0 27 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 703 12,525 0 04 Mar 2022
A New Generation of Perspective API: Efficient Multilingual Character-level Transformers Alyssa Lees Vinh Q. Tran Yi Tay Jeffrey Scott Sorensen Jai Gupta Donald Metzler Lucy Vasserman 52 182 0 22 Feb 2022
Training Verifiers to Solve Math Word Problems K. Cobbe V. Kosaraju Mohammad Bavarian Mark Chen Heewoo Jun ... Jerry Tworek Jacob Hilton Reiichiro Nakano Christopher Hesse John Schulman ReLM OffRL LRM 196 4,175 0 27 Oct 2021
BBQ: A Hand-Built Bias Benchmark for Question Answering Alicia Parrish Angelica Chen Nikita Nangia Vishakh Padmakumar Jason Phang Jana Thompson Phu Mon Htut Sam Bowman 238 397 0 15 Oct 2021
TruthfulQA: Measuring How Models Mimic Human Falsehoods Stephanie C. Lin Jacob Hilton Owain Evans HILM 89 1,825 0 08 Sep 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 264 10,099 0 17 Jun 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 386 2,051 0 31 Dec 2020
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 415 1,868 0 14 Dec 2020
mT5: A massively multilingual pre-trained text-to-text transformer Linting Xue Noah Constant Adam Roberts Mihir Kale Rami Al-Rfou Aditya Siddhant Aditya Barua Colin Raffel 98 2,489 0 22 Oct 2020
Measuring Massive Multitask Language Understanding Dan Hendrycks Collin Burns Steven Basart Andy Zou Mantas Mazeika D. Song Jacob Steinhardt ELM RALM 139 4,222 0 07 Sep 2020
Aligning AI With Shared Human Values Dan Hendrycks Collin Burns Steven Basart Andrew Critch Jingkai Li D. Song Jacob Steinhardt 116 540 0 05 Aug 2020
Language-agnostic BERT Sentence Embedding Fangxiaoyu Feng Yinfei Yang Daniel Cer N. Arivazhagan Wei Wang 102 896 0 03 Jul 2020
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding Dmitry Lepikhin HyoukJoong Lee Yuanzhong Xu Dehao Chen Orhan Firat Yanping Huang M. Krikun Noam M. Shazeer Zhiwen Chen MoE 78 1,142 0 30 Jun 2020
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models Samyam Rajbhandari Jeff Rasley Olatunji Ruwase Yuxiong He ALM AI4CE 68 852 0 04 Oct 2019
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism Mohammad Shoeybi M. Patwary Raul Puri P. LeGresley Jared Casper Bryan Catanzaro MoE 293 1,861 0 17 Sep 2019
HellaSwag: Can a Machine Really Finish Your Sentence? Rowan Zellers Ari Holtzman Yonatan Bisk Ali Farhadi Yejin Choi 83 2,373 0 19 May 2019
Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates Taku Kudo 155 1,153 0 29 Apr 2018
Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge Peter Clark Isaac Cowhey Oren Etzioni Tushar Khot Ashish Sabharwal Carissa Schoenick Oyvind Tafjord ELM RALM LRM 87 2,474 0 14 Mar 2018
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 243 18,685 0 20 Jul 2017
Bag of Tricks for Efficient Text Classification Armand Joulin Edouard Grave Piotr Bojanowski Tomas Mikolov VLM 97 4,596 0 06 Jul 2016