Request: Dataset and pretrained model for language detection #286

turian · 2024-02-05T05:58:01Z

MOTIVATION

Language detection from images is relatively difficult. Adobe and ABBYY OCR require you already know the language of the document before you start OCR.

REQUEST

Please use your document generator to generate documents in different languages.
Ideally, you would even mix different languages.
Release a pretrained model that estimates the percentage of each language in a particular document image.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Request: Dataset and pretrained model for language detection #286

Request: Dataset and pretrained model for language detection #286

turian commented Feb 5, 2024 •

edited

Loading

Request: Dataset and pretrained model for language detection #286

Request: Dataset and pretrained model for language detection #286

Comments

turian commented Feb 5, 2024 • edited Loading

turian commented Feb 5, 2024 •

edited

Loading