Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

你好,训练完的seq2seq纠错模型不能判断正确的句子 #57

Open
GuoXiaodDong opened this issue Nov 1, 2023 · 10 comments
Open

Comments

@GuoXiaodDong
Copy link

你好,训练完的seq2seq纠错模型似乎只能纠错,不能判断正确的句子。原本正确的句子也会被进行纠错修改。这是什么原因造成的呢,是因为没有添加正样本吗?不过后来我又加了正样本,大概占总样本的35%,但还是没办法判别原句是否正确,而是统一按错句处理 ,请问这个应该怎么解决呢

@HillZhang1999
Copy link
Owner

可以给一些例子吗?我自己测试似乎不会这样

@GuoXiaodDong
Copy link
Author

我使用的数据集也是lang8 + SHK进行训练, 训练参数并没有改,训练后的模型会过度纠错. 比如输入 你好。会改成你们好。 比如这只是一个测试用例。 会改成这只是个测试用例。 是不是需要将seq2seq和seq2edit集成使用才能避免这个问题

@GuoXiaodDong
Copy link
Author

可以给一些例子吗?我自己测试似乎不会这样

会无差别的进行纠错,即便原来的句子是正确的,也会进行修改。尽管改完也是正确的,但是语义上还是很可能发生改变的。 在魔塔社区发布的通用纠错模型,输入你好。也会过度纠正,会变成大家好。 但是魔塔设计那个模型过度纠正只是小概率,两者是因为有无检测网络的差别吗? 我使用的数据集也是lang8 + SHK进行训练, 训练参数并没有改,训练后的模型会过度纠错. 比如输入 你好。会改成你们好。 比如这只是一个测试用例。 会改成这只是个测试用例。 是不是需要将seq2seq和seq2edit集成使用才能避免这个问题。 还是说得单独在训练一个检测模型

@GuoXiaodDong
Copy link
Author

GuoXiaodDong commented Nov 2, 2023 via email

@GuoXiaodDong
Copy link
Author

GuoXiaodDong commented Nov 2, 2023 via email

@HillZhang1999
Copy link
Owner

魔塔的模型理论上和我们开源的模型是一样的,结果应该比较接近。

如果想减少过纠现象可以使用集成策略。

@GuoXiaodDong
Copy link
Author

Seq2edit的训练集是否跟Seq2Seq的训练集一样? 是否需要正样本? 感谢您耐心的回答,Thanks♪(・ω・)ノ

@HillZhang1999
Copy link
Owner

一样的,一般是需要正样本的,可以提高precision

@GuoXiaodDong
Copy link
Author

GuoXiaodDong commented Nov 6, 2023 via email

@Lei-Cai
Copy link

Lei-Cai commented May 31, 2024

你好,训练完的seq2seq纠错模型似乎只能纠错,不能判断正确的句子。原本正确的句子也会被进行纠错修改。这是什么原因造成的呢,是因为没有添加正样本吗?不过后来我又加了正样本,大概占总样本的35%,但还是没办法判别原句是否正确,而是统一按错句处理 ,请问这个应该怎么解决呢

你这个问题解决了吗?我这边用自己的数据进行微调,也加了接近30%的正确样本,也会出现过纠现象。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants