Skip to content

Extracción, Análisis y Procesamiento Automático de Información Periodística relacionada al COVID-19 en Chubut

Notifications You must be signed in to change notification settings

emanuelbalcazar/tesina

Repository files navigation

Tesina

Extracción, Análisis y Procesamiento Automático de Información Periodística relacionada al COVID-19 en Chubut

Documentación

Acceda a la wiki del proyecto para obtener información.

Fundamentación

El presente proyecto de tesina se enmarca en el proyecto “Análisis Prospectivo Inteligente Del Impacto Social, Económico Y Productivo Del Covid-19 En La Provincia De Chubut”, el cual fue presentado y aprobado en la convocatoria PROGRAMA DE ARTICULACIÓN Y FORTALECIMIENTO FEDERAL DE LAS CAPACIDADES EN CIENCIA Y TECNOLOGÍA COVID-19. En este marco, el proyecto de tesina aborda una temática particular y específica dentro del mencionado proyecto, la cual se fundamenta a continuación.

La vida de las personas y el curso de las actividades y servicios no esenciales han sufrido cambios drásticos a partir del Decreto DECNU-2020-297-APN-PTE y sus normativas anexas de nivel provincial y/o municipal en Chubut. Las medidas de Aislamiento Social, Preventivo y Obligatorio (ASPO) han generado y continuarán generando desencadenantes de impacto social y económico que necesitan ser identificados y monitoreados para proveer información a los formuladores de políticas públicas. Si bien existen herramientas y emprendimientos a nivel nacional, la provincia de Chubut necesita fortalecer el conjunto de instrumentos que sean capaces de determinar el cúmulo de variables involucradas, medirlas y transformarlas en indicadores cuantitativos y cualitativos que aporten a un tablero de análisis de impacto provincial.

Este proyecto propone la construcción de conocimiento a partir de diferentes estrategias y herramientas de relevamiento de información y datos, que posibiliten un análisis, procesamiento y ponderación de la situación actual, así como una predicción futura del estado de un territorio en términos sociales, económicos y productivos, en virtud de una circunstancia sanitaria como la generada por el COVID-19. En particular se considerará la región delimitada por los límites geográficos de la provincia del Chubut, ajustando la escala territorial a nivel de ciudades, pueblos y comunas rurales. La construcción de conocimiento, se hará a partir de la extracción, procesamiento y análisis automático de información periodística publicada en la prensa provincial, la cual luego será presentada de manera acorde, a fin de poder evaluarse de manera indirecta la evolución de diferentes tópicos, que impactan en la sociedad.

Los resultados serán obtenidos mediante la aplicación de técnicas de Procesamiento de Lenguaje Natural (NLP) y extracción de datos de sitios web (web scraping), para luego ser presentados en una aplicación web que permitirá su análisis y/o difusión.

Antecedentes

El alumno Emanuel Balcazar ha trabajado, bajo la dirección del Dr. Ing. Ordinez, en un sistema de recopilación, procesamiento y visualización de profesionales de Chubut, denominado “GeoPerfil Profesional”, el cual fue presentado, aprobado y financiado por la convocatoria Universidades Agregado Valor 2017 de la Secretaría de Políticas Universitarias. En dicho proyecto, se utilizaron métodos de extracción de datos de diversas fuentes (scrapping) y procesamiento del lenguaje natural (NLP) para llevar a cabo el proyecto, además de implementar una aplicación web para visualizar los resultados.

Objetivos

Objetivo General

Construcción de conocimiento acerca de la situación de la provincia del Chubut en el marco de la pandemia por COVID-19 mediante la extracción y el procesamiento automático de información de fuentes periodísticas sobre tópicos afectados por el contexto sanitario: economía, educación, movilidad, producción, vulnerabilidad.

Objetivos Especificos

  • Investigar y recopilar la información disponible, así como herramientas de trabajo y proyectos similares.

  • Identificar y caracterizar fuentes periodísticas de la provincia del Chubut en términos de extracción automática de sus notas.

  • Implementar un vocabulario que sintetice, mediante un conjunto de palabras, un tópico particular.

  • Generar una herramienta de extracción automática de información de fuentes periodísticas.

  • Analizar la información extraída mediante técnicas de Procesamiento de Lenguaje Natural que permitan generar nueva información y/o representarla de manera accesible.

  • Mostrar los resultados utilizando diversas herramientas informáticas (como gráficos, mapas, etc) que sinteticen los resultados obtenidos.

Desarrollo Propuesto

Las fuentes de información abiertas de donde se obtendrán los datos son páginas de diarios y noticias online en donde se mencionan ciertos tópicos (economía, salud, sentimientos, etc) relacionados con la reciente pandemia. En el aspecto tecnológico se evaluaran las herramientas a utilizar, siendo éstas frameworks que permitan implementar los procesos que se necesiten para generar los resultados.

También se tendrán en cuenta las herramientas de representación de datos como mapas, gráficos estadísticos u otros que sean de interés para sintetizar la información resultante y que permitan en todos los casos analizar la evolución temporal de los contenidos extraídos.

Se utilizaran técnicas de procesamiento de lenguaje natural para interpretar y generar información a partir de los datos que se obtengan durante la fase de extracción de artículos, lo cual se realizará de manera automática de tal forma que continuamente se disponga de nueva información. Se podrán hacer uso de librerías gráficas para representar la información con mapas interactivos, gráficos estadísticos y todo lo que se requiera para lograr un resultado accesible y legible para el público.

Como complemento se analizará la factibilidad de hacer uso del “análisis de sentimientos” sobre la opinión de la prensa respecto a cómo ha afectado la pandemia y el permanecer durante tanto tiempo en cuarentena permitiendo conocer un poco más el impacto social en Chubut. Además se podría construir, a partir de las emociones reflejadas en las notas, un gráfico que muestre por zona en que lugares a impactado de manera más negativa la pandemia. Estos aspectos serán primeramente analizados en cuanto a su factibilidad y potencial de representatividad estadística.

Resultados Esperados

Se esperan alcanzar los siguientes hitos, como parte del proceso pedagógico consistente en un desarrollo mayormente autónomo y de complejidad acorde un trabajo profesional.

  • Amplitud, criterio y autonomía en la búsqueda de información, selección de tecnología y dimensionamiento de la complejidad para un proyecto.

  • Conocimiento de las problemáticas y alternativas de solución para una situación difusamente planteada (realidad).

  • Sistematización y organización de tareas, métodos y materiales para alcanzar objetivos.

  • Construcción de un sistema de extracción, análisis y visualización de información periodística del impacto en distintas dimensiones de la pandemia por COVID-19 en la provincia del Chubut, el cual se encuentre desplegado en un ambiente de producción.

Cronograma de Actividades

# Actividad Duración Aprox.
1 Inmersión y estado del arte en extracción automática y procesamiento de lenguaje natural de artículos periodísticos 1 semana
2 Arquitectura la solución y selección de fuentes 1 semana
3 Estudio de vocabulario 2 semanas
4 Experimentación con tecnologías 2 semanas
5 Diseño, implementación y prueba de extractor 3 semanas
6 Diseño, implementación y prueba de analizador 3 semanas
7 Integración, pruebas y correcciones de visualizador 3 semanas
Total 15 semanas

About

Extracción, Análisis y Procesamiento Automático de Información Periodística relacionada al COVID-19 en Chubut

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published