Olá! Te desejo as boas-vindas ao curso de Engenharia de Analítica: Construindo uma Pipeline Automatizada. Meu nome é Marcelo Cruz, sou instrutor da Escola de Dados e irei te acompanhar durante todo o curso.
Audiodescrição: Marcelo se descreve como um homem de pele clara, com cabelo e barba escuros. Usando uma camisa preta e, atrás, há uma parede branca com iluminação verde e azul.
Este curso foi desenvolvido para aqueles que desejam dar o próximo passo em suas carreiras e ampliar seus conhecimentos na área de Engenharia de Analítica. Durante o curso, criaremos os dados da camada Gold e construiremos uma Pipeline de Dados Automatizada.
Nosso objetivo é ajudar a empresa Zoop a construir essa camada de dados especializada, para que nossos líderes e pessoas de negócio consigam obter insights a partir dos dados. Além disso, vamos construir e monitorar essa Pipeline de Dados a partir dos processos de engenharia que estamos desenvolvendo.
Para isso, utilizaremos algumas ferramentas da AWS. Primeiramente, usaremos o AWS Glue para a criação do ETL, de tabelas e também para verificar a qualidade dos dados. Utilizaremos o Athena para a construção dos comandos SQL e, por fim, o Step Functions para criar nossa Pipeline.
Para que vocês possam tirar o máximo proveito do curso, teremos muitas atividades entre um vídeo e outro, como textos complementares e exercícios práticos. Tudo isso para proporcionar uma aprendizagem ativa.
Além disso, este curso possui como pré-requisito outros dois cursos: Engenharia de Analytics: Implementando um Pipeline ETL com o AWS Glue e Engenharia de Analytics: Analisando os dados com o Amazon Athena.
Por fim, sinta-se à vontade para acessar o fórum e também participar da nossa comunidade no Discord, onde poderá conversar e trocar ideias com outros alunos, além de ter contato com nossos monitores e instrutores.
Agora sim, estamos prontos para dar início à nossa jornada. Conto com você durante este curso. Vamos começar?
A liderança de dados da Zoop apresentou algumas perguntas de negócio para respondermos. Anteriormente, Beatriz realizou uma análise de dados sobre essas questões, com foco nos problemas levantados. A partir dessa análise, ela obteve três insights principais:
Agora, precisamos pensar em como agregar nossos dados para criar tabelas baseadas nesses insights trazidos por Beatriz. Para isso, utilizaremos comandos SQL para criar essas tabelas.
Antes de partir para a criação das tabelas propriamente ditas, precisamos explorar os dados com o próprio SQL para entender quais colunas e tabelas utilizaremos na construção dessas tabelas. É exatamente isso que faremos no próximo vídeo. Nos vemos lá!
Vamos agora buscar as respostas para nossas perguntas nos dados disponíveis!
No console da AWS, acesse o Athena utilizando a barra de pesquisa; basta digitar "Athena" e abri-lo em uma nova aba. Caso já tenha utilizado o serviço anteriormente, ele será aberto diretamente no editor de consultas. No entanto, no primeiro acesso, você será direcionado à página inicial, que contém informações importantes, como preços, detalhes de funcionamento e a documentação oficial. É importante destacar que o Athena cobra pelas consultas realizadas. No entanto, neste momento, não será necessário realizar consultas, apenas acompanhar o processo.
No editor, à esquerda, encontra-se a seção com as informações da fonte de dados, incluindo o catálogo de dados e nossa base de dados, denominada db-zoop-vendas
. Nessa área, é possível visualizar todas as tabelas já disponíveis, como as tabelas bronze e silver. As tabelas silver foram criadas no curso anterior; caso ainda não tenha criado essas tabelas, será proposta uma atividade para que sejam devidamente tratadas. Com os dados prontos, utilizaremos as tabelas silver referentes a estoque, vendas e redes sociais para explorar as informações necessárias.
Vamos começar explorando a questão dos 10 produtos mais vendidos por região. Para isso, visualizamos a tabela silver de vendas. Na seção à esquerda, clicamos nos três pontos ao lado da tabela tb_vendas_silver
e selecionamos a opção de visualização de tabela. Esse procedimento gera uma consulta automática que seleciona todos os dados da tabela de vendas, porém limitada a 10 registros. O resultado será exibido logo abaixo com esses registros.
SELECT * FROM "db-zoop-vendas"."tb_vendas_silver" limit 10;
Retorno omitido.
No entanto, para nossa análise, precisamos de campos específicos, como o nome do produto, a região, o preço unitário e o valor da venda. Portanto, na consulta gerada, que está em branco, realizaremos uma seleção desses campos específicos para atender à pergunta proposta.
select
produto,
preco_unitario,
quantidade,
regiao_cliente
from
tb_vendas_silver;
Executamos o código com sucesso e obtivemos os dados necessários para criar a tabela dos 10 produtos mais vendidos por região. Temos o nome dos produtos, o preço, a quantidade e a região.
Visualização dos 5 primeiros registros:
# | produto | preco_unitario | quantidade | regiao_cliente |
---|---|---|---|---|
1 | Fone de ouvido | 199.0 | 3 | Sudeste |
2 | Smart TV 55" | 2999.0 | 2 | Sul |
3 | Ventilador de mesa | 129.0 | 3 | Sudeste |
4 | Geladeira | 2799.0 | 2 | Sudeste |
5 | Câmera de segurança | 399.0 | 3 | Sudeste |
Agora, para a próxima tabela, que é dos 10 produtos com menor estoque restante, precisamos de outros dados da tabela de vendas.
Para a tabela dos 10 produtos com menor estoque restante, exploramos a tabela de estoque. Voltamos à consulta gerada automaticamente e mudamos o nome da tabela para tb_estoque_silver
.
SELECT * FROM "db-zoop-vendas"."tb_estoque_silver" limit 10;
Retorno omitido.
Ao executar, temos os dados de estoque. Precisamos de colunas específicas, como o nome do produto, a quantidade em estoque e a quantidade de novos produtos. Vamos fazer a seguinte consulta:
select
produto,
quantidade_em_estoque,
quantidade_novos_produtos
from
tb_estoque_silver;
Executamos a consulta e obtivemos os dados necessários: nome dos produtos, quantidade em estoque e quantidade de novos produtos.
Visualização dos 5 primeiros registros:
# | produto | quantidade_em_estoque | quantidade_novos_produtos |
---|---|---|---|
1 | Máquina de café | 439 | 33 |
2 | Secador de cabelo | 283 | 27 |
3 | Geladeira | 175 | 36 |
4 | Smartphone | 289 | 12 |
5 | Fritadeira elétrica | 125 | 26 |
Esses dados serão utilizados para criar a tabela dos 10 produtos com menor estoque restante.
Por fim, precisamos selecionar os dados para criar a tabela de impacto das avaliações nas vendas. Não utilizaremos a tabela de redes sociais, pois já temos os dados de avaliações na tabela de vendas. Nesta tabela, há um campo chamado avaliacao
, que contém a nota dos produtos. Utilizaremos esse campo para acessar as avaliações. Criaremos uma nova consulta:
select
produto,
avaliacao,
quantidade
from
tb_vendas_silver;
Executamos a consulta e obtivemos os campos necessários para criar a tabela final: produto, avaliação e quantidade.
Visualização dos 5 primeiros registros:
# | produto | avaliacao | quantidade |
---|---|---|---|
1 | Secador de cabelo | 3 | 2 |
2 | Cafeteira | 5 | 2 |
3 | Fone de ouvido | 5 | 2 |
4 | Fone de ouvido | 5 | 2 |
5 | Ventilador de teto | 4 | 2 |
Com isso, temos um direcionamento claro para a criação das tabelas.
Na próxima aula, utilizaremos o ETL Jobs, especificamente o Visual ETL, para criar nossas tabelas de forma mais visual, utilizando SQL.
O curso Engenharia de Analytics: construindo uma pipeline automatizada possui 97 minutos de vídeos, em um total de 53 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.