Search Results for author: Salvatore Di Girolamo

Found 3 papers, 0 papers with code

HammingMesh: A Network Topology for Large-Scale Deep Learning

no code implementations • 3 Sep 2022 • Torsten Hoefler, Tommaso Bonato, Daniele De Sensi, Salvatore Di Girolamo, Shigang Li, Marco Heddes, Jon Belk, Deepak Goel, Miguel Castro, Steve Scott

Numerous microarchitectural optimizations unlocked tremendous processing power for deep neural networks that in turn fueled the AI revolution.

Scheduling

Paper
Add Code

Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging

no code implementations • 30 Apr 2020 • Shigang Li, Tal Ben-Nun, Giorgi Nadiradze, Salvatore Di Girolamo, Nikoli Dryden, Dan Alistarh, Torsten Hoefler

For evaluation, we train ResNet-50 on ImageNet; Transformer for machine translation; and deep reinforcement learning for navigation at scale.

Machine Translation reinforcement-learning +3

Paper
Add Code

Taming Unbalanced Training Workloads in Deep Learning with Partial Collective Operations

no code implementations • 12 Aug 2019 • Shigang Li, Tal Ben-Nun, Salvatore Di Girolamo, Dan Alistarh, Torsten Hoefler

Load imbalance pervasively exists in distributed deep learning training systems, either caused by the inherent imbalance in learned tasks or by the system itself.

Paper
Add Code

Cannot find the paper you are looking for? You can Submit a new open access paper.