Search Results for author: Saurabh Ghanekar

Found 1 papers, 1 papers with code

Learn Your Tokens: Word-Pooled Tokenization for Language Modeling

1 code implementation • 17 Oct 2023 • Avijit Thawani, Saurabh Ghanekar, Xiaoyuan Zhu, Jay Pujara

Language models typically tokenize text into subwords, using a deterministic, hand-engineered heuristic of combining characters into longer surface-level strings such as 'ing' or whole words.

Language Modelling

Paper
Code

Cannot find the paper you are looking for? You can Submit a new open access paper.