Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

微调时的 NER 数据集问题 #37

Open
zejunwang1 opened this issue Mar 10, 2022 · 6 comments
Open

微调时的 NER 数据集问题 #37

zejunwang1 opened this issue Mar 10, 2022 · 6 comments

Comments

@zejunwang1
Copy link

你好,问一下,README 里提到的 NER 训练与评估数据集 MSRA 和 OntoNotes 到哪里可以下载?

@zejunwang1 zejunwang1 changed the title NER 数据集问题 微调时的 NER 数据集问题 Mar 10, 2022
@zejunwang1
Copy link
Author

你好,问一下,我看 README 里面说,微调 NER 模型时需要使用如下 MSRA 的格式与标签集:

札 B-NS
幌 E-NS
雪 O
国 O
庙 O
会 O
。 O

主 O
道 O
上 O
的 O
雪 O

...

但 MSRA 的 NER 数据集不是下面的 BIO 标注格式吗?
中 B-ORG
共 I-ORG
中 I-ORG
央 I-ORG
致 O
中 B-ORG
国 I-ORG
致 I-ORG
公 I-ORG
党 I-ORG
十 I-ORG
一 I-ORG
大 I-ORG
的 O
贺 O

@fdugzc
Copy link
Member

fdugzc commented Mar 10, 2022

应该是我用的数据集预处理的形式不一样,但是也都是一一对应的:
NT -> ORG
NS -> LOC
NR -> PER

@zejunwang1
Copy link
Author

应该是我用的数据集预处理的形式不一样,但是也都是一一对应的: NT -> ORG NS -> LOC NR -> PER

所以微调 NER 时,应该使用 B-M-E-S-O 标注的 NT/NS/NR 输入格式,而不是 MSRA 的 B-I-O 格式吗?

札 B-NS
幌 E-NS
雪 O
国 O
庙 O
会 O
。 O

@fdugzc
Copy link
Member

fdugzc commented Mar 10, 2022

应该是我用的数据集预处理的形式不一样,但是也都是一一对应的: NT -> ORG NS -> LOC NR -> PER

所以微调 NER 时,应该使用 B-M-E-S-O 标注的 NT/NS/NR 输入格式,而不是 MSRA 的 B-I-O 格式吗?

札 B-NS 幌 E-NS 雪 O 国 O 庙 O 会 O 。 O

是的

@t2413
Copy link

t2413 commented Mar 3, 2023

请问如果finetune别的数据集,是否需要加上相应数据集的labels?应该怎么做呢?

@fdugzc
Copy link
Member

fdugzc commented Nov 11, 2023

请问如果finetune别的数据集,是否需要加上相应数据集的labels?应该怎么做呢?

目前只能支持MSRA标签集

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants