Alura > Cursos de Data Science > Cursos de Engenharia de Dados > Conteúdos de Engenharia de Dados > Primeiras aulas do curso Engenharia de Analytics: apresentando resultados com QuickSight

Engenharia de Analytics: apresentando resultados com QuickSight

Preparando os dados - Apresentação

Boas-vindas ao curso de Engenharia de Análises, com foco na apresentação de resultados utilizando o QuickSight!

Meu nome é Marcelo Cruz, sou integrante da Escola de Dados e terei a oportunidade de acompanhar o desenvolvimento de todos ao longo desta jornada de aprendizado.

Audiodescrição: Marcelo se declara um homem de pele clara, com cabelos e barba escuros. Ele veste uma camisa azul escura e, atrás dele, há uma parede branca com iluminação verde e azul.

Para quem é este curso?

Este curso foi desenvolvido para aqueles que desejam avançar na carreira de Engenharia de Análises, com ênfase na visualização de dados. Neste curso, teremos a oportunidade de explorar técnicas e ferramentas essenciais para transformar dados brutos em insights valiosos por meio de apresentações visualmente impactantes.

O que aprenderemos?

Durante o curso, teremos a oportunidade de criar um dashboard com diversos tipos de visuais. O foco principal será ajudar a empresa Zoop a visualizar suas métricas a partir dos dados agregados disponíveis na nossa camada gold.

Ferramenta

Para isso, utilizaremos a ferramenta QuickSight, da AWS, que nos permitirá criar e explorar os visuais necessários para a análise.

A fim de garantir que todos aproveitem ao máximo o conteúdo, serão disponibilizadas várias atividades complementares entre os vídeos, como textos explicativos, exercícios práticos e muito mais. Nosso objetivo é proporcionar uma aprendizagem totalmente ativa.

Pré-requisitos

Este curso possui como pré-requisito o conhecimento adquirido nos cursos anteriores da formação, incluindo a criação de pipeline e ETL com AWS Glue, análise de dados com Athena e a construção de uma pipeline automatizada.

Além disso, é importante que todos se sintam à vontade para utilizar o fórum e participar da nossa comunidade no Discord. Esses espaços são ideais para interagir com outros estudantes e também com o time de pessoas instrutoras e monitoras da Escola de Dados.

Conclusão

Contamos com o engajamento de todos ao longo do curso. Vamos iniciar essa jornada?

Preparando os dados - Recuperando os dados

A liderança da empresa Zoop nos informou que desejam apresentar insights com base nos dados da camada gold. No entanto, esses dados foram deletados no último curso para evitar custos adicionais. Para conseguirmos criar as visualizações a partir da camada gold, será necessário restaurar os dados que foram excluídos.

Neste vídeo, focaremos na restauração dos dados da camada gold.

Caso também tenham sido deletados dados das camadas bronze e silver, disponibilizaremos os dados da camada bronze, bem como os scripts necessários para recriar os dados da camada silver de forma tranquila. Com esses recursos, será possível acompanhar o vídeo e recriar a camada gold, prosseguindo com o processo de análise.

Analisando os dados disponíveis

Para restaurar os dados da camada gold, estamos na página do EC3, especificamente na seção referente à camada gold, onde podemos visualizar todas as pastas das tabelas que criamos:

Caminho: Amazon S3 > Buckets > zoop-vendas-bucket > gold/

NameTypeLast modifiedSizeStorage class
impacto_avaliacoes_vendas/Folder---
top_10_produtos_estoque_restante/Folder---
top_10_produtos_por_regiao/Folder---

Observe que temos o "impacto_avaliacoes_vendas", "top_10_produtos_estoque_restante" e "top_10_produtos_por_regiao".

Ao acessar cada uma dessas pastas, como a da "top_10_produtos_por_regiao", por exemplo, percebemos que não há nenhum objeto armazenado, pois os dados foram deletados anteriormente. Temos a tabela vazia:

NameTypeLast modifiedSizeStorage class
-----

O próximo passo agora é restaurar esses objetos, recuperando assim as informações necessárias para seguir com o processo de análise.

Restaurando os dados da camada gold no EC3

Para realizar a restauração dos dados no EC3, utilizaremos os jobs ("tarefas") que foram criados para cada uma das tabelas. A execução de cada job nos permitirá recuperar os dados de forma simples e eficiente. Para isso, acessamos a aba do "AWS Glue" que já está previamente aberta (AWS Glue > Jobs).

Estamos na página de jobs do AWS Glue, onde podemos visualizar na seção "Your jobs" ("Suas tarefas") todos os jobs que foram criados, tanto para a camada silver quanto para a camada gold:

A tabela abaixo foi transcrita parcialmente para fins didáticos:

Job nameTypeCreated byLast modifiedAWS Glue version
tratar redes sociais para silverGlue ETLScript15/10/2024, 16:34:594.0
tabela geralGlue ETLVisual15/10/2024, 16:16:224.0
top 10 produtos por regiaoGlue ETLVisual15/10/2024, 14:38:354.0
Impacto avaliacoes vendasGlue ETLVisual10/10/2024, 18:10:184.0
top 10 produtos estoque restanteGlue ETLVisual10/10/2024, 18:05:234.0
tratar estoque para silverGlue ETLScript10/10/2024, 17:52:264.0

Executando os jobs

Iniciaremos pelo job responsável por recuperar os top 10 produtos por região. Para isso, abrimos o job correspondente clicando sobre ele. Não será necessário realizar nenhuma configuração ou ajuste adicional, pois os dados nas camadas bronze e silver já foram preparados previamente.

Em seguida, clicamos no botão "Run", localizado no canto superior direito, para iniciar a execução do job. Para acompanhar o progresso da execução, acessamos a aba central selecionando "Runs", que nos levará à tela onde é possível visualizar o status do processo. Ao fazer isso, confirmamos que o job está em execução, e devemos aguardar a conclusão da tarefa.

Verificamos isso na seguinte tabela:

Run statusRetriesStart time (Local)End time (Local)DurationCapacity (DPUs)Worker typeGlue version
Running010/29/2024 04:02:50-0 s10 DPUsG.1X4.0

Nosso job terminou de executar!

É possível observar na coluna "Duration" o tempo de execução: 2 minutos e 26 segundos. Esse tempo pode variar dependendo da máquina em uso, sendo possível que seja mais curto ou um pouco mais longo. O importante é que o processo foi concluído com sucesso.

A seguir, nosso objetivo é executar também os jobs das demais tabelas. Para isso, expandiremos a aba lateral esquerda clicando no menu hamburger, acessaremos novamente a página de "ETL jobs". Nesta página é onde temos a seção "Your jobs".

Agora, vamos tratar o job de criação da tabela de estoque restante clicando em "top 10 produtos estoque restante". Acessaremos este job e, da mesma forma que no processo anterior, não é necessário realizar nenhuma modificação. Basta rodá-lo, e ele será executado a partir dos dados presentes na camada silver.

Para iniciar, clicamos em "Run", localizado no canto superior direito. Em seguida, acessamos a aba "Runs" novamente, onde será exibido que o job está em execução. Agora, basta aguardar a conclusão do processo.

O job finalizou, e o tempo de execução foi de 2 minutos e 2 segundos. Agora, resta apenas a tabela de impacto das avaliações nas vendas Vamos voltar aos nossos jobs e localizar o "Impacto avaliacoes vendas". Vamos acessá-lo clicando sobre ele. A mesma lógica se aplica: clicaremos em "Run" no canto superior direito e acompanharemos a execução clicando em "Runs" para verificar se ocorrerá tudo conforme esperado ou se surgirá algum erro.

Finalizamos a execução do último job referente à tabela de impacto das avaliações nas vendas:

Run statusRetriesStart time (Local)End time (Local)DurationCapacity (DPUs)Worker typeGlue version
Succeeded010/29/2024 04:10:2010/29/2024 04:12:261 m 57 s10 DPUsG.1X4.0
Succeeded010/15/2024 14:37:2710/15/2024 14:39:001 m 20 s10 DPUsG.1X4.0
Succeeded010/10/2024 18:10:2010/10/2024 18:11:461 m 18 s10 DPUsG.1X4.0

Como podemos observar, ele foi executado com sucesso, em um tempo de 1 minuto e 57 segundos.

Verificando a geração dos dados

Para verificar se os dados foram gerados corretamente, voltamos ao S3, na aba localizada no topo. Acessaremos a camada "gold" clicando em "gold" na parte superior esquerda e, em seguida, entraremos em cada uma das pastas para confirmar a geração dos dados.

Primeiramente, acessamos a pasta de impacto das avaliações nas vendas. Verificamos que ela foi gerada corretamente, com um total de 36 objetos conforme observamos em lado de "Objects" na parte superior esquerda, que é o número esperado para essa tabela.

Os objetos abaixo foram transcritos parcialmente para fins didáticos:

NameTypeLast modifiedSizeStorage class
part-00000-145f2efe-466a-42da-85f0-8fb0d7cd8857-c000.snappy.parquetparquetOctober 29, 2024, 04:12:15 (UTC-4)1.1 KBStandard
part-00001-145f2efe-466a-42da-85f0-8fb0d7cd8857-c000.snappy.parquetparquetOctober 29, 2024, 04:12:15 (UTC-4)1.1 KBStandard

Agora, vamos conferir as outras tabelas. Retornamos à camada gold clicando em "gold" na parte superior esquerda e, em seguida, acessamos a pasta referente a produtos em estoque restante, onde encontramos apenas um objeto (Objects (1)):

NameTypeLast modifiedSizeStorage class
part-00000-826d31e9-7620-4876-907f-2447acc732df-c000.snappy.parquetparquetOctober 29, 2024, 04:09:28 (UTC-4)1.6 KBStandard

Essa diferença no número de objetos não representa um problema, pois cada tabela possui uma quantidade específica de objetos para seus dados, o que é perfeitamente normal. Por fim, acessamos a tabela de top 10 produtos por região, onde encontramos novamente 36 objetos, confirmando que todos os dados foram restaurados corretamente na camada gold.

Próximo passo

Com os dados prontos, podemos partir para a criação do nosso dashboard ("painel de controle") utilizando o QuickSight. O primeiro passo será o planejamento dos visuais que precisamos gerar para a empresa Zoop. É isso que faremos no próximo vídeo. Até lá!

Preparando os dados - Planejando o dashboard

Conseguimos recuperar os dados da camada gold que haviam sido excluídos anteriormente. Agora, um passo fundamental para a construção do nosso dashboard é o desenvolvimento de um planejamento.

Planejamento

Precisamos definir quais métricas serão calculadas e quais visualizações utilizaremos para apresentá-las. Trabalharemos com os dados da camada gold, abrangendo informações de vendas, estoque e redes sociais.

Com esses dados, podemos calcular as seguintes métricas:

Análise dos tipos de visualizações

Para representar essas métricas, utilizamos diferentes tipos de visuais, como gráficos de barras (tanto verticais quanto horizontais), gráficos de barras agregadas, visuais de KPI, filtros, tabelas e, quando adequados, gráficos de pizza. Cada um desses elementos pode ser empregado de maneira estratégica para facilitar a compreensão dos dados e a tomada de decisões.

Visualização do dashboard

Agora que já compreendemos as métricas que podemos calcular e os tipos de visuais que utilizaremos para exibi-las, é hora de visualizar o dashboard final. Este dashboard representa o nosso objetivo ao longo do curso e serve como referência para o que vamos construir.

Dashboard corporativo em tons de vermelho e azul escuro apresentando gráficos de vendas. À esquerda, no topo, um gráfico de linha mostra um 'Comparativo entre Avaliações', com um aumento de 34,18%. Abaixo, um gráfico de barras horizontal intitulado 'Total de Vendas por Região' destaca o Sudeste com a maior quantidade, seguido por Nordeste, Centro-Oeste, Sul e Norte. À direita, um gráfico de barras vertical mostrando o 'Total de Vendas por Região e Produto' compara múltiplas barras para cada região, separadas por produto. Acima, um contador grande mostra '35,760' e há um campo denominado 'Região Cliente' com uma caixa de seleção marcada como 'All'.

Observamos o dashboard completo, com gráficos e visuais que iremos criar, como cartões de destaque com números-chave, como o total de vendas, comparativos de avaliações e filtros que permitem segmentar os dados por região, em "Região cliente".

O gráfico de barras vertical na parte inferior direita nos permite analisar separadamente cada uma das regiões, enquanto o gráfico de barras vertical à esquerda nos fornece o total de vendas por região.

Descendo um pouco, temos o comparativo entre o valor de estoque e as vendas por avaliação e, finalmente, uma tabela com o estoque restante por produto.

Comparativo entre valores de estoque:

Gráfico de barras horizontais intitulado "COMPARATIVO ENTRE VALORES DE ESTOQUE", mostrando a quantidade de produtos em estoque, os novos e os vendidos para diferentes categorias de produtos. As categorias de produtos, que estão alinhadas verticalmente à esquerda, incluem itens como liquidificador, fone de ouvido, secador de cabelo, cafeteira, smartphone, relógio inteligente, micro-ondas, chuveiro elétrico, ventilador e forno elétrico. As barras se estendem horizontalmente em três cores representando diferentes valores: vermelho para estoque restante, azul para total de novos, e branco para total vendido. Abaixo, há uma escala numérica de 0 a 2.100 em intervalos de 300 unidades. Uma legenda no canto superior direito define as cores das barras.

Total de vendas por avaliação

Gráfico de pizza rotulado "TOTAL DE VENDAS POR AVALIAÇÃO" com cinco seções coloridas representando diferentes totais de vendas associados a números de 1 a 5, sugerindo diferentes níveis de avaliação dos produtos vendidos. A seção maior, número 5, ocupa a maior parte do gráfico, indicando que é a categoria com o maior número de vendas. No canto inferior central há duas legendas, "Avaliação" e "Total de Vendas", sem detalhes adicionais fornecidos. O fundo é escuro, dando destaque às cores do gráfico.

Tabela de estoque restante por produto:

produtoestoque_restante
Liquidificador226
Fone de ouvido216
Secador de cabelo216
Cafeteira expresso211
Smartphone204
Relógio inteligente181
Micro-ondas150
Chuveiro elétrico135
Ventilador de teto133
Forno elétrico122

Esse dashboard representa nosso objetivo final, e ao longo deste processo, aprenderemos a construí-lo de maneira completa, abordando cada uma das métricas e realizando a personalização dos visuais, alinhando-os com as cores da Zoop.

Esse planejamento é fundamental para que tenhamos uma visão clara e detalhada do que desejamos alcançar, tanto em relação às métricas quanto aos tipos de visualizações. Podemos organizar esse planejamento por meio de uma lista de valores, um esquema gráfico ou outra abordagem que melhor atendam às nossas necessidades.

Próximo passo

Com as métricas definidas e uma ideia dos gráficos a serem aplicados, agora direcionaremos nosso foco para a criação desses visuais na ferramenta QuickSight. Essa é a etapa que iremos iniciar na próxima aula. Até lá!

Sobre o curso Engenharia de Analytics: apresentando resultados com QuickSight

O curso Engenharia de Analytics: apresentando resultados com QuickSight possui 109 minutos de vídeos, em um total de 47 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Engenharia de Dados acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas