分布式训练运行指令问题 #33

1835969208 · 2024-08-04T14:26:30Z

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -m torch.distributed.launch --nproc_per_node=8
--nnodes=1 --master_port=10001 --master_addr = [server ip] main_pretrain.py
--backbone 'resnet50' --decoder 'upernet'
--datasets 'sota' 'sior' 'fast'
--batch_size 12 --batch_size_val 12 --workers 8
--save_path '[SEP model save path]'
--distributed 'True' --end_iter 80000
--image_size 224 --init_backbone 'imp'
作者大人，这个分布式预训练运行脚本是一机多卡式还是多机多卡式的。如果我想只用一个gpu单卡运行，可以吗？需要对main_pretrain.py文件进行修改吗？

DotWang · 2024-08-04T15:16:57Z

@1835969208 你给的这个例子是一机多卡，当然可以

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

分布式训练运行指令问题 #33

分布式训练运行指令问题 #33

1835969208 commented Aug 4, 2024

DotWang commented Aug 4, 2024

分布式训练运行指令问题 #33

分布式训练运行指令问题 #33

Comments

1835969208 commented Aug 4, 2024

DotWang commented Aug 4, 2024