ValueError: cannot copy sequence with size 37 to array axis with dimension 36 #3

tianke0711 · 2021-06-13T14:39:59Z

你好我换成BIEOS数据标签后，test数据没有标签。我每个字添加一个临时标签都是O，
然后允许模型，出现了以下错误，请指教！

File "/NER/CLUENER2020/BERT-LSTM-CRF/train.py", line 83, in evaluate
    for idx, batch_samples in enumerate(dev_loader):
  File "/opt/conda/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 560, in __next__
    batch = self.collate_fn([self.dataset[i] for i in indices])
  File "NER/CLUENER2020/BERT-LSTM-CRF/data_loader.py", line 97, in collate_fn
    batch_labels[j][:cur_tags_len] = labels[j]

The text was updated successfully, but these errors were encountered:

whyalwaysonline · 2021-06-24T09:16:05Z

你好我换成BIEOS数据标签后，test数据没有标签。我每个字添加一个临时标签都是O，
然后允许模型，出现了以下错误，请指教！

File "/NER/CLUENER2020/BERT-LSTM-CRF/train.py", line 83, in evaluate
    for idx, batch_samples in enumerate(dev_loader):
  File "/opt/conda/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 560, in __next__
    batch = self.collate_fn([self.dataset[i] for i in indices])
  File "NER/CLUENER2020/BERT-LSTM-CRF/data_loader.py", line 97, in collate_fn
    batch_labels[j][:cur_tags_len] = labels[j]

我也出现了同样的问题，例如36是batch里的第一个数据，当后面的数据比36长时就会报错，不知道如何解决，如有思路可发邮件至76834136@qq.com

tianke0711 · 2021-06-25T01:34:28Z

@whyalwaysonline 还没解决，暂时放弃啦

hemingkx · 2021-06-25T01:51:29Z

不好意思，这两天比较忙，下周我看一下这个问题～

tianke0711 · 2021-06-25T02:02:58Z

@hemingkx 谢谢麻烦啦

whyalwaysonline · 2021-06-25T02:29:23Z

不好意思，这两天比较忙，下周我看一下这个问题～

sentences.append((self.tokenizer.convert_tokens_to_ids(words), token_start_idxs))
给大家一个参考，问题应该出在这句话中的self.tokenizer.convert_tokens_to_ids(words)，我测试了一下，不会报错的句子该元素的size应该是大于token_start_idxs，而对于报错的句子这个值就小了，导致之后size的不匹配。

whyalwaysonline · 2021-06-25T08:26:25Z

发现问题所在了，当数据中包含英文单词时比如“Air Jordan”，在token的时候就会把空格略去，导致size不匹配

chenslcool · 2021-12-06T07:51:48Z

发现问题所在了，当数据中包含英文单词时比如“Air Jordan”，在token的时候就会把空格略去，导致size不匹配

请问那应该如何解决呢？

chenslcool · 2021-12-07T01:26:30Z

发现问题所在了，当数据中包含英文单词时比如“Air Jordan”，在token的时候就会把空格略去，导致size不匹配

请问那应该如何解决呢？

解决了，把数据中的空格去掉即可

mzx987654 · 2022-04-22T13:53:06Z

@whyalwaysonline> 发现问题所在了，当数据中包含英文单词时比如“Air Jordan”，在token的时候就会把空格略去，导致size不匹配
请问去掉空格了还是有这个问题怎么办

chenslcool · 2022-04-22T15:57:13Z

😂不知道了

…

---Original--- From: ***@***.***> Date: Fri, Apr 22, 2022 21:53 PM To: ***@***.***>; Cc: ***@***.******@***.***>; Subject: Re: [hemingkx/CLUENER2020] ValueError: cannot copy sequence with size 37 to array axis with dimension 36 (#3) 发现问题所在了，当数据中包含英文单词时比如“Air Jordan”，在token的时候就会把空格略去，导致size不匹配请问去掉空格了还是有这个问题怎么办 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

chernzheng · 2024-03-12T01:42:23Z

@whyalwaysonline> 发现问题所在了，当数据中包含英文单词时比如“Air Jordan”，在token的时候就会把空格略去，导致size不匹配请问去掉空格了还是有这个问题怎么办

最简单的方法是将空格替换成下划线“_”。仅去掉空格而不去掉相应的标签，会导致对应错误。我的训练数据也是混合了中英文的，解决办法就是将空格替换成下划线，模型最终效果非常好。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ValueError: cannot copy sequence with size 37 to array axis with dimension 36 #3

ValueError: cannot copy sequence with size 37 to array axis with dimension 36 #3

tianke0711 commented Jun 13, 2021 •

edited

Loading

whyalwaysonline commented Jun 24, 2021

tianke0711 commented Jun 25, 2021

hemingkx commented Jun 25, 2021

tianke0711 commented Jun 25, 2021

whyalwaysonline commented Jun 25, 2021

whyalwaysonline commented Jun 25, 2021

chenslcool commented Dec 6, 2021

chenslcool commented Dec 7, 2021

mzx987654 commented Apr 22, 2022 •

edited

Loading

chenslcool commented Apr 22, 2022 via email

chernzheng commented Mar 12, 2024

ValueError: cannot copy sequence with size 37 to array axis with dimension 36 #3

ValueError: cannot copy sequence with size 37 to array axis with dimension 36 #3

Comments

tianke0711 commented Jun 13, 2021 • edited Loading

whyalwaysonline commented Jun 24, 2021

tianke0711 commented Jun 25, 2021

hemingkx commented Jun 25, 2021

tianke0711 commented Jun 25, 2021

whyalwaysonline commented Jun 25, 2021

whyalwaysonline commented Jun 25, 2021

chenslcool commented Dec 6, 2021

chenslcool commented Dec 7, 2021

mzx987654 commented Apr 22, 2022 • edited Loading

chenslcool commented Apr 22, 2022 via email

chernzheng commented Mar 12, 2024

tianke0711 commented Jun 13, 2021 •

edited

Loading

mzx987654 commented Apr 22, 2022 •

edited

Loading