Skip to content

Курсовой проект по курсу "Интерпретируемый ИИ и майнинг данных"

Notifications You must be signed in to change notification settings

made-kdd-2021/tabular-data

Repository files navigation

Первая часть проекта: работа с табличными данными

  1. EDA_and_Preprocessing:
  • Heart_Failure_EDA_and_Train_Test_Split.ipynb - Разведочный анализ данных + базовая подготовка данных БЕЗ масштабирования и кодирования категориальных признаков. Разбиение данных на трейн и тест. На выходе: полученные выборки данных - в папке data.

  • Heart_Failure_Preprocessing.ipynb - Подготовка пайплайнов для обработки данных. На выходе: два сохраненных пайплайна - prep_with_cat.dill (с обработкой категориальных признаков) и prep_without_cat.dill (без обработки категориальных признаков)

  • prep_with_cat.dill и prep_without_cat.dill - Пайплайны для предобработки данных

  1. Examples:
  • Get_RF_feature_importances_from_pipeline.ipynb - Пример, как доставать названия категориальных признаков из пайплайна.
  • Get_cat_features_for LIME+Pipeline_using_example.ipynb - Примеры, как использовать препроцессинг, как доставать названия категориальных признаков и как использовать все это в модели. На выходе: model_LR_example.dill - сохраненная обученная тестовая модель(логистическая регрессия без подбора гиперпараметров просто для примера)
  1. data - Итоговые выборки, с которыми работаем

  2. models - Итоговые модели, результаты которых будем интерпретировать

  3. Heart_Failure_Discovering_causal_dependencies.ipynb - Поиск причинно-следственных связей

  4. Heart_Failure_SHAP_LIME.ipynb - SHAP и LIME анализ

  5. requirements.txt - Необходимые версии библиотек

About

Курсовой проект по курсу "Интерпретируемый ИИ и майнинг данных"

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •