Neste vídeo, você vai acompanhar a criação de um pipeline ETL em tempo real, desde a geração de dados até a visualização em um dashboard interativo.
Tecnologias e Bibliotecas Utilizadas
Infraestrutura
AWS S3: Armazenamento de arquivos de dados de vendas, atuando como a fonte de dados para ETL.
PostgreSQL: Armazenamento de dados transformados, permitindo a recuperação de dados em tempo real.
Docker: Containerização de serviços para fácil implantação e gerenciamento.
Kafka: Sistema de enfileiramento de mensagens para monitoramento e disparo de processos ETL.
Ferramentas de Desenvolvimento e Análise
DBeaver: Gerenciamento e consulta de banco de dados.
Principais Bibliotecas Python
pandas: Manipulação e transformação de dados.
boto3: SDK da AWS para Python, usado para interagir com o S3.
Faker: Simulação de dados de vendas.
pydantic: Validação de dados, garantindo a qualidade dos dados em cada etapa do pipeline.
sqlalchemy: ORM para inserção de dados no PostgreSQL.
streamlit: Dashboard de KPI em tempo real.
confluent_kafka: Interface para Kafka, gerenciando a execução de ETL baseada em eventos.
https://github.com/caio-moliveira/sales-pipeline-project