Search Results for author: Federico Lebrón

Found 1 papers, 1 papers with code

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

3 code implementations • 22 May 2023 • Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai

Multi-query attention (MQA), which only uses a single key-value head, drastically speeds up decoder inference.

Decoder Language Modelling

53,438

Paper
Code

Cannot find the paper you are looking for? You can Submit a new open access paper.