Данный репозиторий представляет собой исходный код решения задачи распознавания именованных сущностей в рамках хакатона X5 Tech AI Hack, проводимого на платформе Codenrock с 17 по 30 мая 2024.
https://codenrock.com/contests/x5tech-aihack#/
По результатам хакатона было занято 8 место (команда DeepDeep). (F1 macro - 0,727 - public test, 0,599 - private test)
- Исследование данных
- Аугментация данных и перевод исходной разметки в BIO формат
- Тренировка трансформер-модели ru-Bert-base с замороженными эмбеддингами и частично замороженными слоями энкодера
- Каталог notebooks - jupiter-ноутбуки, в которых описан ход решения задачи
- src - исходный код дополнительных функций (аугментация данных, BIO-разметка и др.)
- Dockerfile - сборка проекта, запуск в контейнере и выполнение предсказаний для тестовой выборки через gitlab платформу, предоставленную Codenrock