Skip to content

yur1xfd/MyFirstArticle

Repository files navigation

Test status Test coverage Docs status

Название исследуемой задачи:On the periodic behavior of DNN's training. Grokking effect.
Тип научной работы:M1P
Автор:Мельник Юрий Максимович
Научный руководитель:к.ф-м.н. Ветров Дмитрий Петрович
Научный консультант(при наличии):Южаков Тимофей Алексеевич

Abstract

Периодичность в обучении глубоких нейронных сетей имеет большое значение для понимания и улучшения процесса их обучения. Изучение этой особенности может помочь оптимизировать время, которое необходимо потратить для наступления генерализации модели, а также повысить обобщаюшую способность выбранной архитектуры. В данной работе будут приведены результаты исследования периодического поведения при обучения нейронных сетей на примере эффекта ”гроккинга” - явления, связанного с переобучением нейросетевых, в частности, трансформерных моделей и описанного в одноимённой статье ”Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets” исследователями из OpenAI.

Research publications

Presentations at conferences on the topic of research

Software modules developed as part of the study

  1. A python package mylib with all implementation here.
  2. A code with all experiment visualisation here. Can use colab.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published