Skip to content

Async parser for collecting documentation from websites

Notifications You must be signed in to change notification settings

Invictus-7/parser_async

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Асинхронный парсер документации Python

Программа помогает парсить официальную документацию с официального сайта Python, позволяя оставаться в курсе последних новостей и изменений о языке программирования. Парсинг производится асинхронным путем при помощи фреймворка Scrapy, что позволяет значительно уменьшить время получения информации с сайта.


###Автор - Кирилл Резник


Технологии

  • Python v3.7
  • фреймворк Scrapy

Описание проекта

Парсер документации Python предоставляет пользователю возможность получать информацию o данном языке программирования, выводя ее в 2 csv-файла. В первом файле хранится весь список стандартов PEP, во втором собрана информация о том, сколько стандартов PEP в каком статусе находятся, а также их общее количество.

Инструкция по использованию парсера

  1. Клонируйте проект на свой компьютер и перейдите в его корневую папку:
https://github.com/Invictus-7/parser_async

  1. Создайте и активируйте виртуальное окружение:
python -m venv venv
активация - /venv/scripts/activate
  1. Обновите pip и установите зависимости в виртуальное окружение:
python -m pip install --upgrade pip
pip install -r requirements.txt
  1. Запустите паука 'pep'
scrapy crawl pep

Вывод информации

Вышеописанный файлы .csv будут сохранены в папку results, которая будет автоматически создана в папке scrapy_parser_pep (на одном уровне с папкой pep_parse)

About

Async parser for collecting documentation from websites

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages