Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

训练过程 labels_accuracy_except_keep 指标为0 #44

Open
glxe opened this issue May 16, 2023 · 8 comments
Open

训练过程 labels_accuracy_except_keep 指标为0 #44

glxe opened this issue May 16, 2023 · 8 comments

Comments

@glxe
Copy link

glxe commented May 16, 2023

作者你好,我在训练过程中 labels_accuracy_except_keep: 0.0000, 这个指标,跑着跑着就变成0了,请问这个有可能是什么原因导致的呢?
第一阶段还好,都是到了第二阶段慢慢就出现了。

@glxe glxe changed the title hello, 训练过程 labels_accuracy_except_keep 指标为0 May 16, 2023
@HillZhang1999
Copy link
Owner

请问参数和数据和论文中一致吗

@glxe
Copy link
Author

glxe commented May 17, 2023

默认参数没有变,数据的话是我自己的数据。但是也都是处理你的这个格式的。
用的v100的卡,第一次发现这个情况的环境是 cuda 12.1 , torch 应该是1.7.1。
然后我把cuda 降到11.6 torch 1.7.1,问题依旧。
然后cuda又降到11.2(不过这个版本没跑起来,可能环境问题)。

@HillZhang1999
Copy link
Owner

可以check下数据处理有没有问题,或者跑一下预测试试,看结果是否正常

@glxe
Copy link
Author

glxe commented May 17, 2023

目前check的数据没看出有啥问题,预测也试了,但是实际推理的结果,很离谱,同样的测试集,用其他模型推理,结果在预期内,用这个训练好的模型,结果就是飞的很离谱,就很奇怪。

@HillZhang1999
Copy link
Owner

可以加我微信,帮你看看:HillZhang99

@glxe
Copy link
Author

glxe commented May 22, 2023

好像是环境问题,我又重新折腾下了系统环境和驱动,就好了

@1311597363
Copy link

你好,我也碰到了这个问题,可以问下你是怎么解决的吗?

@glxe
Copy link
Author

glxe commented Jun 2, 2023

NVIDIA-SMI 460.32.03 Driver Version: 460.32.03 CUDA Version: 11.2 torch 1.7.1
最后就是装的这个驱动版本,然后就好了。
你可以试试这个环境

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants