In this repository I learnt kaggle CVD dataset (https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction).
EDA was made and ML-model was trained.
Age
: age of the patient, years;Sex
: sex of the patient:
M - Male,
F - Female;ChestPainType
: chest pain type:
TA - Typical Angina,
ATA - Atypical Angina,
NAP - Non-Anginal Pain,
ASY - Asymptomatic;RestingBP
: resting blood pressure, mm Hg;Cholesterol
: serum cholesterol, mm/dl;FastingBS
: fasting blood sugar:
1 - if FastingBS > 120 mg/dl,
0 - otherwise;RestingECG
: resting electrocardiogram results:
Normal - Normal,
ST - having ST-T wave abnormality (T wave inversions and/or ST elevation or depression of > 0.05 mV),
LVH - showing probable or definite left ventricular hypertrophy by Estes' criteria;MaxHR
: maximum heart rate achieved, bpm;ExerciseAngina
: exercise-induced angina:
Y - Yes,
N - No;Oldpeak
: oldpeak = ST, Numeric value measured in depression;ST_Slope
: the slope of the peak exercise ST segment:
Up: upsloping,
Flat: flat,
Down: downsloping;HeartDisease
: output class:
1 - heart disease,
0 - Normal.
Рассмотрим количественные признаки и их отношения с целевым признаком:
- Средний возраст здорового человека ниже среднего возраста больного;
- Больные ССЗ в среднем имеют более выское кровяное давление в спокойном состоянии, чем здоровые;
- Уровень холестерина в крови у больных и здоровых пациентов в среднем не отличается;
- У людей с сердечно-сосудистыми заболеваниями в среднем более низкий пульс;
- Сильные различия между группами пациентов наблюдаются в показаниях депрессии сегмента ST рассмотренного совместно с T-волной на ЭКГ.
Перечисленные выше выводы являются статистически значимыми на при принятом уровне значимости
Составим усредненный портрет больного ССЗ:
- Мужчина;
- Жалуется на бессимптомную боль в груди;
- Наличие аномалии зубца ST-T на ЭКГ;
- Наблюдается стенокардия, вызванная физической нагрузкой;
- Плоский пиковый ST-сегмент;
- Уровень сахара в крови натощак больше 120 мг/дл.
Описание узла дерева:
- Первоя строка - условие разделения, налево - True, направо - False;
- Вторая строка
samples
- количество пациентов в этом узле/листе; - Третья строка
values
- разделение пациентов [ЕСТЬ ССЗ, НЕТ ССЗ]; - Четвертая строка - метка класса.
Если безприкословно слушаться этой схемы, то можно определять наличие или отсутствие ССЗ в точностью 81,35%, чего делать не рекомендуется.
Данная схема играет роль вспомогательного инструмента врача при диагностике заболеваний.
Способ объединения моделей:
final preds
=
-
$y_i$ - перекодированное предсказание i-ой модели,$y_i$ ~$[-1; 1]$ -
$c_i$ - среднее метрик качества i-ой модели.
Таким образом, была построена модель, конечным предсказанием которой является взвешенное по основным метрикам предсказание других моделей машинного обучения:
- Метод Опроных Векторов;
- Случайный Лес;
- Логистическая Регрессия;
- Градиентный бустинг.
Такое объединение не дало увеличения метрик.
Наулучшей одиночной моделью является градиентный бустинг.