Scraper para CRautos y Yuplon

Este proyecto incluye dos scripts de web scraping para extraer datos de sitios web populares en Costa Rica: CRautos y Yuplon. Los datos se almacenan en archivos Excel para su posterior análisis.

Requisitos

Python 3.x
Selenium
BeautifulSoup
pandas
openpyxl

Instalación

Clona el repositorio:

git clone https://github.com/mecanos28/ScraperForCrAutosYuplon.git
cd ScraperForCrAutosYuplon

Crea un entorno virtual e instala las dependencias:

python -m venv env
source env/bin/activate  # En Windows: env\Scripts\activate
pip install -r requirements.txt

Descarga el ChromeDriver compatible con tu versión de Chrome y tu sistema operativo desde aquí.
Coloca el ejecutable de ChromeDriver en la carpeta chromedriver dentro del directorio del proyecto.

Uso

Scraper para CRautos

Este script navega por las listas de vehículos en CRautos y extrae datos relevantes como modelo, año, precio, kilometraje, etc.

Ejecuta el script:
```
python3 crautos/crautos.py
```
Los datos extraídos se guardarán en un archivo Excel en la carpeta output.

Scraper para Yuplon

Este script navega por las campañas en Yuplon y extrae detalles de las ofertas, incluyendo título principal, subtítulos, precios, descuentos y fechas de validez.

Ejecuta el script:
```
python3 yuplon/yuplon.py
```
Los datos extraídos se guardarán en exceles y generaran plots con datos relevantes.

Dependencias

Selenium

Selenium es una herramienta para la automatización de navegadores web. Se usa en este proyecto para abrir y navegar por las páginas web de CRautos y Yuplon, interactuar con elementos de las páginas (como botones y enlaces), y extraer el contenido necesario.

BeautifulSoup

BeautifulSoup es una biblioteca de Python para analizar documentos HTML y XML. Se usa junto con Selenium para extraer y analizar datos de las páginas web, permitiendo localizar y extraer información específica de las estructuras HTML de CRautos.

pandas

pandas es una biblioteca de Python para el análisis y manipulación de datos. En este proyecto se usa para almacenar los datos extraídos en estructuras de datos (DataFrames), facilitando la manipulación y el análisis de los datos. También se usa para exportar los datos a archivos Excel.

openpyxl

openpyxl es una biblioteca de Python para leer y escribir archivos Excel (xlsx). Se utiliza en este proyecto para guardar los datos extraídos de CRautos y Yuplon en archivos Excel, permitiendo un fácil acceso y análisis de los datos.

Contacto: ferojasmel@hotmail.com

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Scraper para CRautos y Yuplon

Requisitos

Instalación

Uso

Scraper para CRautos

Scraper para Yuplon

Dependencias

Selenium

BeautifulSoup

pandas

openpyxl

Files

README.md

Latest commit

History

README.md

File metadata and controls

Scraper para CRautos y Yuplon

Requisitos

Instalación

Uso

Scraper para CRautos

Scraper para Yuplon

Dependencias

Selenium

BeautifulSoup

pandas

openpyxl