CraudNlpProject

Train paraphrase recognition models for detecting related search queries. Queries are considered close if they relate to the solution of the same user task.

Collect dataset

Dataset wes collect using toloka.ai Examples could be found here:

Project settings:

Pool settings:

Model

Using pytorch-lightning with base bert-base-multilingual-cased model achieved good quality on test dataset, and it cost just 10$.

Loss model with test Accuracy 78.67:

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
img		img
.gitignore		.gitignore
7867_loss.png		7867_loss.png
ParaphraseProject.ipynb		ParaphraseProject.ipynb
README.md		README.md
SMALL_user_session_million_queries.json		SMALL_user_session_million_queries.json
aggregated_results_by_ds__pool_36298501__2022_11_10.tsv		aggregated_results_by_ds__pool_36298501__2022_11_10.tsv
definitely_paraphrases.tsv		definitely_paraphrases.tsv
synthetic_non_paraphrases.tsv		synthetic_non_paraphrases.tsv
test_dataset.csv		test_dataset.csv
test_dataset_LABELED.csv		test_dataset_LABELED.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CraudNlpProject

Collect dataset

Model

About

Releases

Packages

Contributors 2

Languages

alekseyen/CrowdsourcingNlpProject

Folders and files

Latest commit

History

Repository files navigation

CraudNlpProject

Collect dataset

Model

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages