-
Notifications
You must be signed in to change notification settings - Fork 23
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问fine-tuning数据集是没有上传吗? #2
Comments
@Duanexiao 您好,我使用的是THUCNews数据中的一个子集(百度可以找到的,回头我上传下),该数据集比较小,所以很适合调试一个算法.。然后在转移到实际项目数据集中。 |
@lonePatient 谢谢,请问你的text classification是multi-class还是multi-label |
@Duanexiao 当前数据是multi-class,multi-label使用的是kaggke的toxic数据集,如https://github.com/lonePatient/Bert-Multi-Label-Text-Classification |
好的,谢谢 |
大佬,可以看看你的数据存储形式吗,在csv中是什么样子的???谢谢您 |
@sunyh214 这个数据集很简单 其实就是每一行 “ label context“” 格式 |
在这每一行label context中包含标签吗?可以上传个样例吗 |
大佬,再打扰一下,我数据集下了一个THUCNews数据中的一个子集,但是报了下述错误: |
不知道哪错了,label咋变成文本了 |
大佬,程序我已调通,我是在cpu上训练的,现在出现了这样的错误: |
@Duanexiao 大佬,程序我已调通,我是在cpu上训练的,现在出现了这样的错误: |
@sunyh214 内存满了,或者进程满了,估计你使用cpu时限制下进程数或者内存吧. |
@Duanexiao 我线程数设的是1,我是不是设为0就可以了,应该不是内存的问题。 |
@Duanexiao 好的,谢谢您! |
你好,请问一个样本中大概有六七百个字,请问应该怎么修改max_seq_len,np.percentile又是用来处理什么的。 |
@wzjj98 如果文本长度超过512的话,一般看你的具体任务了,如果是简单的分类任务的话,直接进行截断,可以截头+截尾 或者 截头+截中,这个需要进行实验. 如果是序列任务的话,一般而言使用窗口进行处理 根据窗口大小进行平移. |
大佬,您好!我想使用这个完成一个文本相似度的训练,但是这个'label_to_id'该怎么写啊!我的文件格式为tsv,id|sentence1|sentence2|label |
大佬,哪里可以找的你fine-tuning时候的数据集?
The text was updated successfully, but these errors were encountered: