upgrade to PTL 1.7 #4672

nithinraok · 2022-08-03T23:34:13Z

Signed-off-by: nithinraok nithinrao.koluguri@gmail.com

What does this PR do?

Upgrade PTL version to 1.7.2

Collection: All

Changelog

Default max_steps is -1 now instead of None
DDPPlugin has been moved from plugins to strategies and renamed as DDPStrategy -> renamed NLPDDPPlugin to NLPDDPStrategy
override lightning module trainer property to make it compatible with our existing models, since it's been removed from PTL 1.7
Following args have been removed from Trainer

prepare_data_per_node

checkpoint_callback - replaced with enable_checkpointing

process_position - now part of TQDMprogressbar callback

stochastic_weight_avg - now part of callback

flush_logs_every_n_steps

weights_summary - replaced with callback

terminate_on_nan

log_gpu_memory - part of DeviceGPUStats callback

Progressbar refresh rate - part of TQDMProgressbar callback

TODO:

remove Cuda override function, once Fix device placement when .cuda() called without specifying index Lightning-AI/pytorch-lightning#14128 was released as part of 1.7.2

Before your PR is "Ready for review"

Pre checks:

Make sure you read and followed Contributor guidelines
Did you write any new necessary tests?
Did you add or update any necessary documentation?
Does the PR affect components that are optional to install? (Ex: Numba, Pynini, Apex etc)
- Reviewer: Does the PR have correct import guards for all optional libraries?

PR Type:

New Feature
Bugfix
Documentation

ericharper · 2022-08-10T20:08:39Z

nemo/collections/nlp/modules/common/megatron/transformer.py

@@ -848,6 +848,7 @@ def forward(
        # Output. [sq, b, h]
        # =================

+        # print(context_layer.device)


Can you remove this print statement?

ericharper · 2022-08-10T20:10:22Z

nemo/core/classes/modelPT.py

@@ -1469,3 +1473,33 @@ def on_train_batch_end(self, outputs, batch: Any, batch_idx: int, unused: int =
                    if batch_idx == self._nsys_profile_end_step and get_rank() in self._nsys_profile_ranks:
                        logging.info("====== End nsys profiling ======")
                        torch.cuda.cudart().cudaProfilerStop()
+
+    def cuda(self, device=None):


Just adding a note that we need to remove this as soon as PTL 7.2 is out with the fix.

ericharper

LGTM. Thanks!

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

…lback now Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

Signed-off-by: ericharper <complex451@gmail.com>

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

ericharper

Re-approving.

* upgrade to PTL 1.7 Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * min version Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * replace progressbar_refresh_rate with enable progressbar, this is callback now Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * progressbar Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * replace removed PTL 1.7 args, fix cpu tests, remove p-tune older script Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * revert ssl test fixes Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * override trainer property and fix numba grad check Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * NLPDDPlugin -> NLPDDPStrategy Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * style fix Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * set max_steps default as -1 Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * fix maxsteps in notebooks Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * update trainer config Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * fix speech2label jenkins Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * fix speech2text jenkins Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * DDPPlugin -> DDPStrategy Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * remove provided strategy keys from trainer config nlp Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * check other examples Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * override LightningModule .cuda call to maintain pytorch default behavior Signed-off-by: ericharper <complex451@gmail.com> * revert gpt eval jenkins test Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * overwrite cuda class to PTL Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * review feedback Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * remove checkpoint callback from main config Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * patch fix for intentslot classification test Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * style fix Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: ericharper <complex451@gmail.com> Co-authored-by: ericharper <complex451@gmail.com>

* upgrade to PTL 1.7 Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * min version Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * replace progressbar_refresh_rate with enable progressbar, this is callback now Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * progressbar Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * replace removed PTL 1.7 args, fix cpu tests, remove p-tune older script Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * revert ssl test fixes Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * override trainer property and fix numba grad check Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * NLPDDPlugin -> NLPDDPStrategy Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * style fix Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * set max_steps default as -1 Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * fix maxsteps in notebooks Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * update trainer config Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * fix speech2label jenkins Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * fix speech2text jenkins Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * DDPPlugin -> DDPStrategy Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * remove provided strategy keys from trainer config nlp Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * check other examples Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * override LightningModule .cuda call to maintain pytorch default behavior Signed-off-by: ericharper <complex451@gmail.com> * revert gpt eval jenkins test Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * overwrite cuda class to PTL Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * review feedback Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * remove checkpoint callback from main config Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * patch fix for intentslot classification test Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * style fix Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: ericharper <complex451@gmail.com> Co-authored-by: ericharper <complex451@gmail.com> Signed-off-by: Anas Abou Allaban <aabouallaban@pm.me>

* upgrade to PTL 1.7 Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * min version Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * replace progressbar_refresh_rate with enable progressbar, this is callback now Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * progressbar Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * replace removed PTL 1.7 args, fix cpu tests, remove p-tune older script Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * revert ssl test fixes Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * override trainer property and fix numba grad check Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * NLPDDPlugin -> NLPDDPStrategy Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * style fix Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * set max_steps default as -1 Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * fix maxsteps in notebooks Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * update trainer config Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * fix speech2label jenkins Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * fix speech2text jenkins Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * DDPPlugin -> DDPStrategy Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * remove provided strategy keys from trainer config nlp Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * check other examples Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * override LightningModule .cuda call to maintain pytorch default behavior Signed-off-by: ericharper <complex451@gmail.com> * revert gpt eval jenkins test Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * overwrite cuda class to PTL Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * review feedback Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * remove checkpoint callback from main config Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * patch fix for intentslot classification test Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> * style fix Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com> Signed-off-by: ericharper <complex451@gmail.com> Co-authored-by: ericharper <complex451@gmail.com> Signed-off-by: Hainan Xu <hainanx@nvidia.com>

nithinraok force-pushed the upgrade_to_ptl_1.7 branch 4 times, most recently from c8b6c8f to 4622525 Compare August 10, 2022 17:37

nithinraok marked this pull request as ready for review August 10, 2022 18:42

nithinraok requested review from redoctopus, MaximumEntropy, titu1994 and ericharper August 10, 2022 18:44

ericharper reviewed Aug 10, 2022

View reviewed changes

ericharper previously approved these changes Aug 10, 2022

View reviewed changes

nithinraok dismissed ericharper’s stale review via d4920b2 August 10, 2022 22:04

nithinraok added 17 commits August 10, 2022 16:06

upgrade to PTL 1.7

f12eeda

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

min version

3205744

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

replace progressbar_refresh_rate with enable progressbar, this is cal…

9af8ccf

…lback now Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

progressbar

d3796c7

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

replace removed PTL 1.7 args, fix cpu tests, remove p-tune older script

c60e88d

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

revert ssl test fixes

c4ac532

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

override trainer property and fix numba grad check

323aa76

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

NLPDDPlugin -> NLPDDPStrategy

716e25f

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

style fix

9fc6076

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

set max_steps default as -1

d4223a7

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

fix maxsteps in notebooks

0d02642

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

update trainer config

5fde783

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

fix speech2label jenkins

e8205d9

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

fix speech2text jenkins

3a8dfa7

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

DDPPlugin -> DDPStrategy

cba45cd

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

remove provided strategy keys from trainer config nlp

09297e8

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

check other examples

d838219

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

ericharper and others added 5 commits August 10, 2022 16:06

override LightningModule .cuda call to maintain pytorch default behavior

ee6be18

Signed-off-by: ericharper <complex451@gmail.com>

revert gpt eval jenkins test

c2fa720

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

overwrite cuda class to PTL

4d002e2

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

review feedback

1e3f6be

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

remove checkpoint callback from main config

cf81127

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

nithinraok force-pushed the upgrade_to_ptl_1.7 branch from c307642 to cf81127 Compare August 10, 2022 23:17

nithinraok added 2 commits August 10, 2022 22:34

patch fix for intentslot classification test

c909663

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

style fix

4ab1f5b

Signed-off-by: nithinraok <nithinrao.koluguri@gmail.com>

ericharper approved these changes Aug 11, 2022

View reviewed changes

ericharper merged commit 4cd9b34 into main Aug 11, 2022

ericharper deleted the upgrade_to_ptl_1.7 branch August 11, 2022 15:20

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

upgrade to PTL 1.7 #4672

upgrade to PTL 1.7 #4672

nithinraok commented Aug 3, 2022 •

edited

Loading

ericharper Aug 10, 2022

ericharper Aug 10, 2022

ericharper left a comment

ericharper left a comment

upgrade to PTL 1.7 #4672

upgrade to PTL 1.7 #4672

Conversation

nithinraok commented Aug 3, 2022 • edited Loading

What does this PR do?

Changelog

Before your PR is "Ready for review"

ericharper Aug 10, 2022

Choose a reason for hiding this comment

ericharper Aug 10, 2022

Choose a reason for hiding this comment

ericharper left a comment

Choose a reason for hiding this comment

ericharper left a comment

Choose a reason for hiding this comment

nithinraok commented Aug 3, 2022 •

edited

Loading