Alto: Orchestrating Distributed Compound AI Systems with Nested Ancestry

v1v2 (latest)

Alto: Orchestrating Distributed Compound AI Systems with Nested Ancestry

7 March 2024

Keshav Santhanam

Deepti Raghavan

Muhammad Shahir Rahman

Thejas Venkatesh

Maximilien Cura

Pratiksha Thaker

Matei A. Zaharia

ArXiv (abs)PDF HTML

Papers citing "Alto: Orchestrating Distributed Compound AI Systems with Nested Ancestry"

18 / 18 papers shown

Title
Hydragen: High-Throughput LLM Inference with Shared Prefixes Jordan Juravsky Bradley Brown Ryan Ehrlich Daniel Y. Fu Christopher Ré Azalia Mirhoseini 106 40 0 07 Feb 2024
An LLM Compiler for Parallel Function Calling Sehoon Kim Suhong Moon Ryan Tabrizi Nicholas Lee Michael W. Mahoney Kurt Keutzer A. Gholami LRM 52 65 0 07 Dec 2023
Branch-Solve-Merge Improves Large Language Model Evaluation and Generation Swarnadeep Saha Omer Levy Asli Celikyilmaz Mohit Bansal Jason Weston Xian Li MoMe 83 77 0 23 Oct 2023
DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines Omar Khattab Arnav Singhvi Paridhi Maheshwari Zhiyuan Zhang Keshav Santhanam ... Thomas T. Joshi Hanna Moazam Heather Miller Matei A. Zaharia Christopher Potts RALM 86 280 0 05 Oct 2023
Efficient Memory Management for Large Language Model Serving with PagedAttention Woosuk Kwon Zhuohan Li Siyuan Zhuang Ying Sheng Lianmin Zheng Cody Hao Yu Joseph E. Gonzalez Haotong Zhang Ion Stoica VLM 192 2,322 0 12 Sep 2023
Graph of Thoughts: Solving Elaborate Problems with Large Language Models Maciej Besta Nils Blach Aleš Kubíček Robert Gerstenberger Michal Podstawski ... Joanna Gajda Tomasz Lehmann H. Niewiadomski Piotr Nyczyk Torsten Hoefler LRM AI4CE LM&Ro 162 701 0 18 Aug 2023
RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models Jie Huang Ming-Yu Liu Peng Xu Mohammad Shoeybi Kevin Chen-Chuan Chang Bryan Catanzaro RALM 100 35 0 15 Aug 2023
FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios Ethan Chern Steffi Chern Shiqi Chen Weizhe Yuan Kehua Feng Chunting Zhou Junxian He Graham Neubig Pengfei Liu HILM 68 207 0 25 Jul 2023
WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia Sina J. Semnani Violet Z. Yao He Zhang M. Lam KELM AI4MH 94 80 0 23 May 2023
Complex Claim Verification with Evidence Retrieved in the Wild Jifan Chen Grace Kim Aniruddh Sriram Greg Durrett Eunsol Choi HILM 94 82 0 19 May 2023
Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs Jinyang Li Binyuan Hui Ge Qu Jiaxi Yang Binhua Li ... Guoliang Li Kevin C. C. Chang Fei Huang Reynold Cheng Yongbin Li LMTD 118 419 0 04 May 2023
PLAID: An Efficient Engine for Late Interaction Retrieval Keshav Santhanam Omar Khattab Christopher Potts Matei A. Zaharia VLM 117 76 0 19 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 526 3,721 0 21 Mar 2022
ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction Keshav Santhanam Omar Khattab Jon Saad-Falcon Christopher Potts Matei A. Zaharia 105 415 0 02 Dec 2021
Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering Gautier Izacard Edouard Grave RALM 144 1,182 0 02 Jul 2020
Multi-Stage Document Ranking with BERT Rodrigo Nogueira Wei Yang Kyunghyun Cho Jimmy J. Lin 87 397 0 31 Oct 2019
Ray: A Distributed Framework for Emerging AI Applications Philipp Moritz Robert Nishihara Stephanie Wang Alexey Tumanov Richard Liaw ... Melih Elibol Zongheng Yang William Paul Michael I. Jordan Ion Stoica GNN 110 1,268 0 16 Dec 2017
SQuAD: 100,000+ Questions for Machine Comprehension of Text Pranav Rajpurkar Jian Zhang Konstantin Lopyrev Percy Liang RALM 316 8,174 0 16 Jun 2016