Alura > Cursos de Data Science > Cursos de Engenharia de Dados > Conteúdos de Engenharia de Dados > Primeiras aulas do curso Engenharia de Analytics: construindo uma pipeline automatizada

Engenharia de Analytics: construindo uma pipeline automatizada

Conhecendo os problemas de negócios - Apresentação

Olá! Te desejo as boas-vindas ao curso de Engenharia de Analítica: Construindo uma Pipeline Automatizada. Meu nome é Marcelo Cruz, sou instrutor da Escola de Dados e irei te acompanhar durante todo o curso.

Audiodescrição: Marcelo se descreve como um homem de pele clara, com cabelo e barba escuros. Usando uma camisa preta e, atrás, há uma parede branca com iluminação verde e azul.

Este curso foi desenvolvido para aqueles que desejam dar o próximo passo em suas carreiras e ampliar seus conhecimentos na área de Engenharia de Analítica. Durante o curso, criaremos os dados da camada Gold e construiremos uma Pipeline de Dados Automatizada.

Nosso objetivo é ajudar a empresa Zoop a construir essa camada de dados especializada, para que nossos líderes e pessoas de negócio consigam obter insights a partir dos dados. Além disso, vamos construir e monitorar essa Pipeline de Dados a partir dos processos de engenharia que estamos desenvolvendo.

Para isso, utilizaremos algumas ferramentas da AWS. Primeiramente, usaremos o AWS Glue para a criação do ETL, de tabelas e também para verificar a qualidade dos dados. Utilizaremos o Athena para a construção dos comandos SQL e, por fim, o Step Functions para criar nossa Pipeline.

Para que vocês possam tirar o máximo proveito do curso, teremos muitas atividades entre um vídeo e outro, como textos complementares e exercícios práticos. Tudo isso para proporcionar uma aprendizagem ativa.

Além disso, este curso possui como pré-requisito outros dois cursos: Engenharia de Analytics: Implementando um Pipeline ETL com o AWS Glue e Engenharia de Analytics: Analisando os dados com o Amazon Athena.

Por fim, sinta-se à vontade para acessar o fórum e também participar da nossa comunidade no Discord, onde poderá conversar e trocar ideias com outros alunos, além de ter contato com nossos monitores e instrutores.

Agora sim, estamos prontos para dar início à nossa jornada. Conto com você durante este curso. Vamos começar?

Conhecendo os problemas de negócios - Perguntas de negócios

A liderança de dados da Zoop apresentou algumas perguntas de negócio para respondermos. Anteriormente, Beatriz realizou uma análise de dados sobre essas questões, com foco nos problemas levantados. A partir dessa análise, ela obteve três insights principais:

Agora, precisamos pensar em como agregar nossos dados para criar tabelas baseadas nesses insights trazidos por Beatriz. Para isso, utilizaremos comandos SQL para criar essas tabelas.

Antes de partir para a criação das tabelas propriamente ditas, precisamos explorar os dados com o próprio SQL para entender quais colunas e tabelas utilizaremos na construção dessas tabelas. É exatamente isso que faremos no próximo vídeo. Nos vemos lá!

Conhecendo os problemas de negócios - Consultando os dados

Vamos agora buscar as respostas para nossas perguntas nos dados disponíveis!

Acessando o Athena na AWS

No console da AWS, acesse o Athena utilizando a barra de pesquisa; basta digitar "Athena" e abri-lo em uma nova aba. Caso já tenha utilizado o serviço anteriormente, ele será aberto diretamente no editor de consultas. No entanto, no primeiro acesso, você será direcionado à página inicial, que contém informações importantes, como preços, detalhes de funcionamento e a documentação oficial. É importante destacar que o Athena cobra pelas consultas realizadas. No entanto, neste momento, não será necessário realizar consultas, apenas acompanhar o processo.

Explorando o Editor do Athena

No editor, à esquerda, encontra-se a seção com as informações da fonte de dados, incluindo o catálogo de dados e nossa base de dados, denominada db-zoop-vendas. Nessa área, é possível visualizar todas as tabelas já disponíveis, como as tabelas bronze e silver. As tabelas silver foram criadas no curso anterior; caso ainda não tenha criado essas tabelas, será proposta uma atividade para que sejam devidamente tratadas. Com os dados prontos, utilizaremos as tabelas silver referentes a estoque, vendas e redes sociais para explorar as informações necessárias.

Explorando a Tabela dos 10 Produtos Mais Vendidos por Região

Vamos começar explorando a questão dos 10 produtos mais vendidos por região. Para isso, visualizamos a tabela silver de vendas. Na seção à esquerda, clicamos nos três pontos ao lado da tabela tb_vendas_silver e selecionamos a opção de visualização de tabela. Esse procedimento gera uma consulta automática que seleciona todos os dados da tabela de vendas, porém limitada a 10 registros. O resultado será exibido logo abaixo com esses registros.

SELECT * FROM "db-zoop-vendas"."tb_vendas_silver" limit 10;

Retorno omitido.

No entanto, para nossa análise, precisamos de campos específicos, como o nome do produto, a região, o preço unitário e o valor da venda. Portanto, na consulta gerada, que está em branco, realizaremos uma seleção desses campos específicos para atender à pergunta proposta.

select
    produto,
    preco_unitario, 
    quantidade, 
    regiao_cliente
from
    tb_vendas_silver;

Executamos o código com sucesso e obtivemos os dados necessários para criar a tabela dos 10 produtos mais vendidos por região. Temos o nome dos produtos, o preço, a quantidade e a região.

Visualização dos 5 primeiros registros:

#produtopreco_unitarioquantidaderegiao_cliente
1Fone de ouvido199.03Sudeste
2Smart TV 55"2999.02Sul
3Ventilador de mesa129.03Sudeste
4Geladeira2799.02Sudeste
5Câmera de segurança399.03Sudeste

Explorando a Tabela dos 10 Produtos com Menor Estoque Restante

Agora, para a próxima tabela, que é dos 10 produtos com menor estoque restante, precisamos de outros dados da tabela de vendas.

Para a tabela dos 10 produtos com menor estoque restante, exploramos a tabela de estoque. Voltamos à consulta gerada automaticamente e mudamos o nome da tabela para tb_estoque_silver.

SELECT * FROM "db-zoop-vendas"."tb_estoque_silver" limit 10;

Retorno omitido.

Ao executar, temos os dados de estoque. Precisamos de colunas específicas, como o nome do produto, a quantidade em estoque e a quantidade de novos produtos. Vamos fazer a seguinte consulta:

select
    produto,
    quantidade_em_estoque, 
    quantidade_novos_produtos
from
    tb_estoque_silver;

Executamos a consulta e obtivemos os dados necessários: nome dos produtos, quantidade em estoque e quantidade de novos produtos.

Visualização dos 5 primeiros registros:

#produtoquantidade_em_estoquequantidade_novos_produtos
1Máquina de café43933
2Secador de cabelo28327
3Geladeira17536
4Smartphone28912
5Fritadeira elétrica12526

Esses dados serão utilizados para criar a tabela dos 10 produtos com menor estoque restante.

Explorando os dados de Impacto das Avaliações nas Vendas

Por fim, precisamos selecionar os dados para criar a tabela de impacto das avaliações nas vendas. Não utilizaremos a tabela de redes sociais, pois já temos os dados de avaliações na tabela de vendas. Nesta tabela, há um campo chamado avaliacao, que contém a nota dos produtos. Utilizaremos esse campo para acessar as avaliações. Criaremos uma nova consulta:

select 
    produto, 
    avaliacao, 
    quantidade
from 
    tb_vendas_silver;

Executamos a consulta e obtivemos os campos necessários para criar a tabela final: produto, avaliação e quantidade.

Visualização dos 5 primeiros registros:

#produtoavaliacaoquantidade
1Secador de cabelo32
2Cafeteira52
3Fone de ouvido52
4Fone de ouvido52
5Ventilador de teto42

Com isso, temos um direcionamento claro para a criação das tabelas.

Próximos Passos: Utilização do ETL Jobs

Na próxima aula, utilizaremos o ETL Jobs, especificamente o Visual ETL, para criar nossas tabelas de forma mais visual, utilizando SQL.

Sobre o curso Engenharia de Analytics: construindo uma pipeline automatizada

O curso Engenharia de Analytics: construindo uma pipeline automatizada possui 97 minutos de vídeos, em um total de 53 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Engenharia de Dados acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas