Данный проект посвящен разработке системы классификации изображений симпсонов с использованием глубоких нейронных сетей и технологии Transfer Learning. Для обучения моделей использовались архитектуры VGG и EfficientNet_v2. Учитывая ограниченный размер доступного датасета, применялась аугментация данных для улучшения обобщающей способности моделей.
В проекте использовались следующие архитектуры нейронных сетей:
- VGG (VGG16): VGG - это сверточная нейронная сеть, изначально разработанная для классификации изображений. VGG16 - одна из его вариаций, состоящая из 16 слоев, включая сверточные, пулинговые и полносвязные слои. Она характеризуется глубокой архитектурой и хорошо зарекомендовала себя в задачах классификации.
- EfficientNet_v2: EfficientNet_v2 - это семейство эффективных архитектур нейронных сетей, основанных на принципе скейлинга коэффициентов глубины, ширины и разрешения модели. Они достигают высокой производительности с меньшим количеством параметров. В данном проекте использовалась одна из версий EfficientNet_v2, а именно EfficientNet_v2-B0.
- Подготовка данных: Для обучения и оценки производительности моделей был использован набор данных, содержащий изображения персонажей из сериала "Симпсоны". Датасет был разделен на обучающую, валидационную и тестовую выборки. Для повышения разнообразия исходных данных, применялась аугментация данных, такая как случайные повороты, изменение масштаба и отражение.
- Разработка моделей: Были реализованы модели на основе архитектур VGG и EfficientNet_v2 с использованием фреймворка PyTorch. Вместо обучения моделей с нуля, было применено Transfer Learning, при котором предварительно обученные веса моделей на больших наборах данных использовались как инициализация для новых моделей.
- Обучение и настройка моделей: Обучение моделей производилось на обучающей выборке с использованием оптимизации градиентным спуском и функции потерь, cross-entropy loss. Гиперпараметры моделей и процесса обучения были настроены для достижения наилучшей производительности на валидационной выборке.
- Оценка производительности: После обучения моделей была проведена оценка их производительности на тестовой выборке. F1-мера, была измерены для каждой модели.
- Развертывание и использование: Лучшая модель может быть развернута для использования в реальных условиях, где она может классифицировать изображения симпсонов и помочь в различных задачах, связанных с этими данными.
Результаты проекта включают обученные модели на основе архитектур VGG и EfficientNet_v2 для классификации изображений симпсонов. Они были оценены и сравнены по метрикам производительности.