About Me
Papers
News

Recent & Upcoming Talks
- Example Talk
Papers
Projects
Projects
Experience
Teaching
- Learn JavaScript
- Learn Python
Blog

CO2: Efficient Distributed Training with Full Communication-Computation Overlap

Jan 29, 2024·

Weigao Sun

Weigao Sun

,

Zhen Qin

,

Weixuan Sun

,

Shidi Li

,

Dong Li

,

Xuyang Shen

,

Yu Qiao

,

Yiran Zhong

· 0 min read

Last updated on Jan 29, 2024

Weigao Sun

Authors

Young Scientist

← Linear Attention Sequence Parallelism Apr 3, 2024

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models Jan 9, 2024 →

© 2025 Me. This work is licensed under CC BY NC ND 4.0

Published with Hugo Blox Builder — the free, open source website builder that empowers creators.