bert wordpiece indexing之后，原始单词对应的序列标注标签怎么做映射？ #412

312shan · 2022-05-02T12:41:33Z

BertWordPieceEncoder.index_datasets 一步实现了文本到 token_id 的转换，但是文本原来标签的序列标注标签似乎没有同步转换的对应方法？

这会导致一个问题，用户只能不用 index_datasets 方法，只能自己写 tokenize + 原始标签到 wordpiece 序列对应的ner标签的方法。
所以，这个BertWordPieceEncoder似乎不太方便用于ner？特别是英文的 wordpiece 的那种？

yhcc · 2022-05-02T16:05:46Z

建议直接使用BertEmbedding，就不需要考虑这个问题了【不过会存在一点效率上的损失】。BertWordPieceEncoder是给分类任务使用的。

Provide feedback