Você é meu convidado para construir uma ETL do zero, capaz de transformar PDFs em dados estruturados, usando Python e ferramentas Open Source.
Repositório do projeto:
Fábio Cantarim: https://github.com/FabioCantarimM/pdf-extractor
Luciano Galvão: https://github.com/lvgalvao/dbt_dashboard_aovivo
Download dos PDFs: https://drive.google.com/drive/folders/1kFYAqZS1SgVQaNVf3X7Hnu2umUQzYG6r
O que é uma ETL?
ETL significa Extract, Transform, Load (Extrair, Transformar, Carregar). É um processo utilizado para extrair dados de várias fontes, transformá-los em um formato adequado e carregá-los em um banco de dados ou data warehouse.
O que você vai aprender?
1) Converter PDFs em dados estruturados:
Automatize a leitura e interpretação de dados contidos em PDFs.
2) Exportar diretamente para SQL:
Transforme os dados extraídos em tabelas SQL prontas para análise.
3) Criar uma ETL do zero usando Python:
Aprenda a construir todo o processo de ETL utilizando Python, Git e boas práticas de projetos de dados.