Olá! Meu nome é Victorino Vila e te desejo boas-vindas ao curso de Data Warehouse e Integration Services: Carregando dados dimensionais.
Audiodescrição: Victorino é uma pessoa de pele clara e olhos escuros. Seus cabelos são curtos, lisos e grisalhos. Tem barba e bigode também grisalhos e usa uma camiseta preta. Ao fundo uma parede lisa com iluminação azul-claro.
Esse é mais um curso na formação no qual estamos acompanhando a consultora Paula na implementação do projeto da empresa Atacadez.
Paula já implementou, com nossa ajuda, os processos de carga do Data Lake. Agora, chegou o momento de utilizar os dados brutos contidos neste Data Lake para iniciar as cargas no Data Warehouse.
Para isso, aplicaremos as regras de negócios definidas durante a modelagem, assim como garantir a integridade do banco de dados gerencial.
Isso porque nem sempre o dado chega íntegro no Data Lake, já que ele tem como função receber dados brutos das diversas fontes de dados gravados no Data Lake exatamente como chegam.
O Data Lake possui outras funções muito importantes além de servir como fonte de dados para o Data Warehouse, esse é o motivo pelo qual isso ocorre.
Aprenderemos como implementar o processo de Lookup das dimensões, criar identificadores primários e o valor numérico sequencial que identifica as dimensões.
Também faremos a classificação de membros das dimensões baseados na definição de seus atributos provenientes da modelagem e abordaremos problemas de integridade e como resolvê-los.
Nesse curso, focaremos na implementação das cargas das dimensões empresa, produto e cliente.
Importante ressaltar que o ambiente na sua máquina deve estar configurado para dar continuidade ao projeto deste curso. Caso não esteja, disponibilizamos um material nas atividades mostrando um passo a passo de como fazê-lo.
Esperamos que você goste deste curso! Um grande abraço e até o próximo vídeo.
Começaremos entendendo em qual fase do projeto estamos atualmente. Nos cursos anteriores, acompanhamos toda a trajetória da Paula na implementação do projeto de Inteligência de Negócios na empresa Atacadez. Vamos relembrar esse progresso.
Primeiro, Paula fez o levantamento dos processos de negócio, elaborando uma documentação sobre esses processos e a matriz de dimensão-indicador, modelando uma área específica da empresa, a área de vendas.
Ela escolheu a implementação do Data Warehouse de forma vertical, implementando uma área por vez, isso porque traz melhores resultados a curto prazo para o usuário.
A etapa seguinte foi criar o Data Warehouse, Paula projetou as tabelas baseadas na documentação do modelo. Para isso, utilizou duas formas diferentes, o modelo estrela para as dimensões cliente, empresa e tempo e o modelo floco de neve para a dimensão produto.
No modelo estrela, as tabelas de dimensões são todas desnormalizadas, ou seja, todos os campos referentes aos níveis e atributos ficam na mesma tabela. No modelo floco de neve, temos as tabelas normalizadas, ou seja, uma tabela para cada nível das hierarquias da dimensão.
Posteriormente, Paula identificou as fontes de dados fornecidas pela área de tecnologia da informação da Atacadez. Ela recebeu uma série de arquivos de formatos diferentes, como CSV, Excel, JSON e XML. Assim, ela criou uma estrutura de diretórios e construiu uma série de processos de carga usando o SQL Server Integration Services, realizando a carga desse Data Lake.
O Data Lake é um banco de dados onde os dados brutos das fontes são armazenados. Ele tem diversas utilidades, como realizar pesquisas relacionadas à ciência de dados. No entanto, para nós, o objetivo do Data Lake é ter uma única fonte de dados para o Data Warehouse.
Agora, estamos na fase de iniciar a carregar o Data Warehouse. Este é o momento em que aplicaremos as regras de negócio da empresa para garantir que os dados no Data Warehouse sempre tenham o mesmo conceito.
Vamos realizar algumas transformações para adequar os dados e gravá-los no Data Warehouse usando o Data Lake como única fonte. Sendo assim, este curso dará ênfase a essa carga.
Também usaremos o Integration Services para implementar esses processos.
Te esperamos no vídeo seguinte!
Agora, entenderemos o Data Lake, já que essa será a única fonte de dados para o Data Warehouse.
Para isso, abrimos o Management Studio. Analisaremos as tabelas do Data Lake chamado DL_ATACADEZ
.
Começaremos analisando os campos da tabela de clientes, que concentra todas as fontes de dados necessárias para a dimensão cliente. Para isso, na lateral esquerda da tela, clicamos em "dbo.tbl_cliente
> colunas".
Encontramos o identificador natural, descrição do cliente, endereço, faturamento anual, segmento, dados geográficos como a cidade, estado e região, considerando que o estado tem o identificador natural. Também há dados de metadados como arquivo, origem e data de carga.
Importante lembrar que a tabela de clientes resulta da consolidação de duas fontes de dados diferentes, sendo uma planilha de Excel com cadastros de clientes e um arquivo CSV com dados geográficos.
Vamos para a próxima tabela, a de compras, que possui dados referentes às compras efetuadas. Para analisar os campos, clicamos em "dbo.tbl_compra
> Colunas". Encontramos mês e o ano, o identificador natural do produto, preço médio de compra e dados dos metadados.
Os dados usados para alimentar essa tabela foram provenientes das compras médias dos fornecedores por produto. Esses dados de compra são necessários para calcular o custo de venda, que acontecerá no nível do Data Warehouse e Data Market.
A tabela seguinte é a de empresas, com dados referentes as lojas e as empresas do Atacadez. Na lateral esquerda, acessamos "dbo.tbl_empresa
> Colunas". A fonte de dados usada para alimentar essa tabela foi um único arquivo CSV.
Nela temos o identificador natural da loja, descritor, seguido pelo identificador natural e descritor da empresa, o tamanho da loja em metragem e os dados referentes aos metadados da fonte.
Na tabela de itens, "dbo.tbl_item
> Colunas" encontramos itens das notas fiscais. Foi alimentada por vários arquivos CSV com itens das notas de cada mês. Seus campos incluem o número da nota fiscal, o identificador natural do produto, a quantidade comprada e o preço pago pelo produto, além dos dados de metadados.
Outra tabela é a ede log, "dbo.tbl_log
> Colunas", utilizada para acompanhar o carregamento dos dados. Embora não seja usada para alimentar o Data Warehouse, no final do curso usaremos essa tabela de logs para monitorar o carregamento do Data Warehouse.
A tabela de notas, "dbo.tbl_notas
> Colunas", abriga os cabeçalhos das notas fiscais. Também deriva de vários arquivos CSV consolidados por mês, seus campos são o número da nota fiscal, o identificador natural do cliente e da loja, a data da nota fiscal e dados referentes aos metadados.
A tabela de produtos, "dbo.tbl_produto
> Colunas", é alimentada por dados JSON e XML. Os dados JSON se referem aos produtos, enquanto os XML contêm informações dos fornecedores desses produtos.
Essa tabela inclui o identificador natural, descritor do produto, descritor do departamento, unidade de medida do produto, identificador natural e descritor do fornecedor, além dos dados de metadados.
Por fim, temos a tabela com as datas correspondentes ao carregamento das notas fiscais, "dbo.tbl_tempo
> Colunas". Quando lemos os dados do cabeçalho da nota, conforme o processo que construímos no curso anterior, é guardado as datas para serem posteriormente carregadas no Data Warehouse.
Por isso, temos apenas o identificador natural do dia, a data no formato date
e um controle que utilizaremos para que o Data Warehouse identifique quais foram as datas que já foram carregadas e quais ainda precisam ser carregadas.
Esse é o esquema do Data Lake. A partir dos dados que estão neste Data Lake que vamos ler, aplicar transformações e salvar dentro do Data Warehouse. Tudo isso aplicando as regras de negócio estabelecidas durante a fase de modelagem do projeto de Business Intelligence da área de vendas da Atacadez.
Até o vídeo seguinte!
O curso Data Warehouse e Integration Services: carregando dados dimensionais possui 145 minutos de vídeos, em um total de 53 atividades. Gostou? Conheça nossos outros cursos de Business Intelligence em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.