Skip to content

Latest commit

 

History

History
5 lines (3 loc) · 577 Bytes

parallel_output.md

File metadata and controls

5 lines (3 loc) · 577 Bytes

并行计算loss

InternEvo目前使用的并行计算loss方法改编自Apex。如需要加速计算loss,可将并行计算loss方法改为Flash-Attention的并行计算方法,需要注意的是,这可能会出现loss不收敛的情况。

具体修改代码可见InternEvo-parallel-loss