Написать программу для удаления выбросов и удалить выбросы.
- Программа для обработки
- Описание на страницу - как работает, какие результаты
data
- Папка с датасетамиraw
- Папка для файла README.mdexam.ipynb
- Реализация функционала удаление выбросов из датасета
- Импорт необходимых библиотек
- Загружает датасет в массив и визуализируем его
- Чтобы увидеть более хошоро, где могут быть выбросы вырезаем линейный тренд
- Визуализируем полученный результат
- Делим датасет на ровные части. В данном примере датасет поделен по 1%
- Ищем среднее крадратичное отклонение и выявляем отклонения для каждой части датасета
- Отделяет отдельно выбросы и датасет без выбросов
- Заносим все в массивы
outliers = [] # Выбросы outliers_removed = [] # Чистые данные
- Визуализируем полученные результаты
Были попытки найти выборосы кластеризатор DBScan
Чистый датасет |
---|
Датасет с отмеченными точками которые попали под выброс |
---|
Датасет без выбросов |
---|
Датасет с выбросами |
---|
Попытка использовать кластеризатор DBScan |
---|