Данный блокнот Jupyter (Tematic_modeling.ipynb
) представляет собой реализацию проекта по тематическому моделированию текстовых данных. Проект включает в себя различные этапы работы с текстом, начиная от предобработки данных и заканчивая обучением моделей машинного обучения для классификации текста и анализа тематик.
- Исследовать набор данных на русском языке.
- Применить методы предобработки текста для подготовки данных к анализу.
- Использовать различные подходы векторизации текста: TF-IDF, Bag of Words, Word2Vec.
- Обучить модель для классификации текстов по тематикам.
- Проанализировать полученные тематики и классификацию текстов.
- Предобработка данных: очистка текста, лемматизация, удаление стоп-слов.
- Векторизация текста: применение TF-IDF, Bag of Words и Word2Vec для преобразования текстов в числовые векторы.
- Классификация текстов: обучение модели логистической регрессии на основе векторизованных данных.
- Анализ результатов: интерпретация тематик и оценка качества модели с помощью метрик классификации.
Для работы с проектом необходимо иметь установленными следующие библиотеки Python: numpy
, pandas
, matplotlib
, sklearn
, gensim
, nltk
.
- Откройте блокнот
Tematic_modeling.ipynb
в среде, поддерживающей выполнение Jupyter блокнотов (например, JupyterLab, Google Colab). - Подгрузите данные для анализа
- Выполните ячейки по порядку, следуя инструкциям в комментариях.
- Для адаптации проекта под свои задачи, модифицируйте параметры предобработки данных, выбор методов векторизации и настройки моделей.