Проект асинхронного парсера PEP

Технологии:

* Scrapy

Описание проекта

Проект представляет собой парсер веб-сайта документов PEP на базе фреймворка Scrapy. В рамках проекта реализован парсер, собирающий сводные данные по PEP. Данные сохраняются в два csv-файла: в первом файле сохраняется список всех PEP (номер, название и статус), во втором - сводные данные по статусам РЕР (сколько найдено документов в каждом статусе).

Как запустить проект

Клонируйте репозиторий, перейдите в папку, создайте виртуальное окружение и активируйте:

python3 -m venv env

. venv/bin/activate

Обновите менеджер пакетов (pip) и установите зависимости из файла requirements.txt:

(venv) python3 -m pip install --upgrade pip

(venv) pip install -r requirements.txt

Запуск парсера:

scrapy crawl pep

Результаты работы парсера:

Парсер выводит собранную информацию в два файла .csv в папку results/:

В первом файле (pep_{Date}.csv) - список всех PEP: номер, название и статус.
Во втором файле (status_summary_{Date}.csv) содержится сводка по статусам PEP — сколько найдено документов в каждом статусе (статус, количество) и общее количество всех документов.

Дополнительно

Удобно работать/тестировать в интерактивной оболочке Scrapy Shell: ◾ Через командную строку в директории scrapy_parser_pep запустите скрипт:

scrapy shell 'URL'

Где URL — веб-страница или путь до локального HTML-файла После запуска Scrapy Shell в терминал будут выведены логи запроса и краткая справка по доступным объектам и командам

Автор

Selivanov Dmitry

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
pep_parse		pep_parse
results		results
tests		tests
.flake8		.flake8
.gitignore		.gitignore
README.md		README.md
pytest.ini		pytest.ini
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Проект асинхронного парсера PEP

Технологии:

Описание проекта

Как запустить проект

Запуск парсера:

Результаты работы парсера:

Дополнительно

Автор

About

Uh oh!

Releases

Packages

Languages

Dimanitto/scrapy_parser_pep

Folders and files

Latest commit

History

Repository files navigation

Проект асинхронного парсера PEP

Технологии:

Описание проекта

Как запустить проект

Запуск парсера:

Результаты работы парсера:

Дополнительно

Автор

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages