Este projeto aplica técnicas de engenharia de dados para analisar e interpretar um vasto conjunto de dados disponível no site kaggle sobre o câncer no Brasil.
- Overview da solução
- Tecnologias utilizadas
- Potenciais impactos
- Solução
- Análise Exploratória
- Referência
Tecnologia | Descrição |
---|---|
Python | Linguagem de programação de alto nível (Pandas, Seaborn) |
Pandas | Ferramenta de análise e manipulação de dados de código aberto |
Seaborn | Biblioteca de visualização de dados Python baseada em matplotlib |
Matplotlib | Biblioteca abrangente para criar visualizações estáticas, animadas e interativas em Python |
Jupyter Notebook | Biblioteca de visualização de dados Python baseada em matplotlib |
SQL | Linguagem padrão para manipulação de registros em bancos de dados |
AWS | Plataforma de serviços de computação em nuvem da Amazon.com |
AWS Glue | Serviço de integração de dados com tecnologia sem servidor |
AWS S3 | Serviço de armazenamento de objetos |
AWS Athena | Análise interativa e sem servidor criado em frameworks de código aberto |
Terraform | Automação de infraestrutura para provisionar e gerenciar recursos em qualquer nuvem |
Apache Spark | Mecanismo de análise unificada para código aberto em computação distribuída |
- Identificação de áreas de alta incidência
- Identificação de fatores de risco
- Contribuir para políticas de saúde mais eficazes
- Melhor alocação de recursos
- Melhorar práticas de tratamento
- Influenciar positivamente a prevenção, diagnóstico e tratamento
- Previsão de tendências futuras
- Melhorar o prognóstico do paciente
Foi construída uma solução robusta para gerir, armazenar, limpar, modelar e processar dados, com o auxílio de tecnologias da AWS. Essas tecnologias incluíram:
AWS S3 | AWS Glue | AWS Athena |
---|---|---|
Armazenamento dos dados brutos csv | ETL | Análise dos dados |
Armazenamento dos dados Convertidos para parquet | Limpeza | Consultas SQL |
Armazenamento dos dados Processados e modelados | Modelagem | Sem servidor |
Processamento |
Para automatizar e gerenciar nossa infraestrutura de maneira eficiente, foi utilizado o Terraform, uma ferramenta de Infraestrutura como Código (IaC).
- Gestão de Infraestrutura como Código (IaC)
- Gerenciamento de dependências de recursos
- Segurança e Conformidade
- Automação
- Orquestração de serviços
- Gerenciamento do estado
Na etapa de Análise Exploratória foram descobertos os vários insights importantes abaixo:
A incidência de casos por gênero:
Mulheres | Homens |
---|---|
971.471 | 806.534 |
Podemos assumir que no Brasil, as mulheres apresentam uma maior incidência de câncer em comparação aos homens.
Quando analisamos a relação morte por câncer e tipo do câncer, percebemos altas taxas de mortalidades em tipos de canceres relativamente comuns, como é o caso do câncer nos brônquios ou pulmões, no estomago, no esôfago.
Altos índices entre 65 a 74 anos, 55 a 64 anos e 75 a 84 anos.
Mortes por câncer por estado, os principais estados para se ter atenção são, Minas Gerais, Paraná, Mato Grosso.
Diagnósticos e óbitos por câncer por cidades, preocupação principalmente para as cidades de Belo Horizonte pelos altos índices de diagnósticos e as cidades de Curitiba, Belém e Manaus por apresentarem uma alta taxa de mortalidade e relação a quantidade de diagnósticos.
Este projeto proporcionou uma oportunidade para aplicar e aprofundar conhecimentos em Ciência e Engenharia de Dados, ao abordar uma questão de importância global: a incidência de câncer. Foi proposto uma solução para um problema persistente e universal, usando recursos para analisar e entender as complexas relações entre os dados relacionados a essa doença.
A melhor compreensão dessas relações tem potencial para contribuir em muitas áreas da sociedade, oferecendo insights sobre o impacto do câncer na vida das pessoas e identificando estratégias eficazes para minimizar a incidência e prevenir as mortes associadas à doença. Os dados, quando corretamente interpretados, podem fornecer as ferramentas necessárias para enfrentar esta questão com uma resposta informada e baseada em evidências.
Em termos de desenvolvimento futuro deste projeto, vemos oportunidades para expandir nossa análise, estabelecendo mais conexões entre os dados disponíveis. Além disso, a automação de processos em cada etapa do projeto permitirá uma eficiência maior e garantirá a relevância contínua de nossas descobertas à medida que novos dados forem disponibilizados.
O governo brasileiro, por meio do Instituto Nacional do Câncer (INCA), é responsável pela geração de estimativas relacionadas ao câncer no país. Para isso, o INCA estabelece centros de coleta de dados sistemáticos, conhecidos como Registros de Câncer com Base Populacional (RCBP). Esses registros seguem as leis regionais vigentes e estão disponíveis para solicitação por qualquer indivíduo interessado.