Skip to content
This repository has been archived by the owner on Jun 20, 2022. It is now read-only.

Примеры, на которых модель отрабатывает неверно #3

Open
Islanna opened this issue Mar 11, 2020 · 9 comments
Assignees

Comments

@Islanna
Copy link
Collaborator

Islanna commented Mar 11, 2020

Тикет с логом всех найденных багов, которые планируется включить в следующий релиз.

@Islanna Islanna self-assigned this Mar 11, 2020
@Islanna
Copy link
Collaborator Author

Islanna commented Mar 11, 2020

Добавить в датасет:

  • окончание -ая: 1-ая;
  • точка вместо десятичной запятой: 9.5 грамм;
  • одно число с десятичной запятой, без слов вокруг: 32,5;
  • квартира: 25 квартира;
  • кабинет: 24 кабинет;
  • руб., $, : 500 руб.;
  • = как равно;

Пофиксить кейсы с ч-часами и г-годами.

@casioexlim
Copy link

Hi:
I'm a TTS researcher working in china.
Only model file is provided in your repo.
Could you share with us how you train your s2s model and
what the difference of model structure between the paper bellow.
https://arxiv.org/abs/1911.04128

@snakers4
Copy link
Owner

Hi @casioexlim
We were not planning on sharing this

@LecronRu
Copy link

LecronRu commented Dec 2, 2020

Проблемы с шестизначными и более числами.

768324: семьсот шестьдесят восемь триста двадцать четыре. (триады без множителя "тысяч")
100000: сто три ноля ноль. (результат странный)
201000: двести один тысяч. (нет склонения)
7683241: семь шесть восемь три два четыре один. (семизначное, разбивает на отдельные цифры)

Версии пакетов:
numpy 1.19.4
torch 1.8.0.dev20201201+cpu

@LecronRu
Copy link

LecronRu commented Dec 2, 2020

Проблемы с династическими именами:

Для женских пытается склонять, но в мужском роде и с ошибкой падежей.
Екатерина II: Екатерина второго.
Екатерину II: Екатерину второй.

Для мужских склонять не пытается.
Павлу II: Павлу два.
Павла II: Павла два.

@alxmamaev
Copy link

Проблема с сокращениями:

  • т.е. - то есть
  • ч.т.д. - что и требовалось доказать

@Islanna
Copy link
Collaborator Author

Islanna commented Dec 9, 2020

Проблемы с шестизначными и более числами.

Не баг, а фича, как говорится.
Обычно люди читают большие числа по цифрам, если это, например, номер заказа. Либо по триадам, если это индекс или номер телефона.

За остальные примеры спасибо! Добавим в датасет.

@LecronRu
Copy link

LecronRu commented Dec 9, 2020

Обычно люди читают большие числа по цифрам, если это, например, номер заказа. Либо по триадам, если это индекс или номер телефона.

В любом случае, вместо цифр нужны триады. Очень неудачно смотрится "Цена автомобиля три восемь четыре четыре ноль ноль ноль рублей."
Оптимально, привязать произношение к контексту. Для телефона будет одно, для №/заказа — другое, для остального, в том числе рублей/километров — третье.

Сейчас намёки есть, но тоже с ошибкой. Расстояние до луны...
384 400 км. (сокращение с разделением триад пробелом) пишет правильно: триста восемьдесят четыре тысячи четыреста километров. Остальные варианты, без разделения или с полным словом — 384400 км., 384 400 километров., 384400 километров., — пишет триадами : триста восемьдесят четыре четыреста километров.

@alxmamaev
Copy link

А когда планируется обновление модели?

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants