Alura > Cursos de Data Science > Cursos de Business Intelligence > Conteúdos de Business Intelligence > Primeiras aulas do curso Data Mart e Analysis Services: construindo um modelo OLAP multidimensional

Data Mart e Analysis Services: construindo um modelo OLAP multidimensional

Criando projeto no Analysis Services - Apresentação

Boas-vindas! Meu nome é Victorino Vila.

Audiodescrição: Victorino é uma pessoa de pele clara e olhos escuros. Seus cabelos são curtos, lisos e grisalhos. Usa barba e bigode e está vestindo uma camiseta preta.

Vamos começar mais um curso da formação que acompanha a implementação de um projeto de Business Intelligence (Inteligência de Negócios) na empresa AtacaDez.

Já percorremos, em cursos anteriores, todas as fases deste projeto que está sendo gerenciado pela Paula. Ela fez estes mesmos cursos de BI e conseguiu ser contratada pela AtacaDez, convencendo a diretoria a implementar o projeto de forma corporativa.

O que aprendemos nesse processo?

Assim, passamos por várias fases desse projeto, desde a modelagem e construção do Data Warehouse (Armazém de Dados), construção do Data Lake (Lago de Dados), identificação das ferramentas de dados, carregamento do Data Lake e do Data Warehouse.

Objetivos do curso

Agora, precisamos construir o banco de dados de consulta, o Data Mart (Mercado de Dados). Neste curso, aprenderemos que o Data Mart também será construído e configurado usando o mesmo projeto do Visual Studio utilizado para o Data Lake e o Data Warehouse.

Mas há uma diferença: será o Data Mart que se integrará às ferramentas de consultas. Por isso, aprenderemos neste curso que o Data Mart possui uma estrutura diferente dos bancos de dados tradicionais, que não favorecem a performance.

Os bancos onde vamos construir o Data Mart contêm as regras de negócio do modelo, o que facilitará quando formos construir os dashboards (painéis de controle). Não precisaremos configurar nada no momento da construção dos relatórios, apenas construiremos os dados.

Estão prontos para começar? Até o próximo vídeo!

Criando projeto no Analysis Services - Fases do projeto de BI

Estamos acompanhando a implementação do projeto de Business Intelligence(Inteligência de Negócios) pela Paula, que é uma consultora formada em um curso que realizamos na Alura. Ela foi contratada pela AtacaDez para liderar o seu primeiro projeto de Business Intelligence.

Paula já percorreu várias fases do projeto, então vamos fazer um resumo das etapas já concluídas e estabelecer em qual fase da implementação do projeto estamos.

Revisão da Fases do Projeto de Business Intelligence

Ao iniciar seu trabalho na AtacaDez, o diretor da empresa imediatamente solicitou que Paula criasse dashboards baseados nas planilhas de Excel ou nas bases de dados transacionais que ele já tinha acesso.

No entanto, Paula explicou que isso não é apropriado. Um dashboard não deve ser construído sobre uma base de Excel ou sobre uma base de dados transacional. É necessário organizar uma base de dados gerencial única, com um único conceito para toda a empresa, para que seja uma base oficial de resultados gerenciais.

Depois de convencer os diretores da AtacaDez de que o projeto de Business Intelligence corporativo a ser desenvolvido teria que seguir esses passos, Paula realizou o primeiro passo, que foi a modelagem do modelo de negócio escolhido para a implementação do sistema de Business Intelligence - o modelo de vendas da AtacaDez.

Após definir todas as regras de negócio desses modelos, como, por exemplo, dimensões, hierarquias, indicadores, ela construiu o Data Warehouse. O Data Warehouse tem um desenho muito especial, cujo desenho é resultado do levantamento do modelo que foi feito na primeira fase. No entanto, esse Data Warehouse é criado, mas inicialmente está vazio.

Foi necessário, então, identificar as fontes de dados, que normalmente são as fontes de dados transacionais da empresa, mas também podem ser um arquivo de Excel ou um arquivo CSV.

Paula então adotou a estratégia da construção do Data Lake, que é um banco de dados onde os dados brutos são carregados. O Data Lake tem várias utilidades, não só para ser fonte de um Data Warehouse. Ele pode ser usado, por exemplo, para modelos preditivos, para Data Science (Ciência de Dados), análise de resultados brutos através dos dados e assim por diante.

Com os dados inseridos no Data Lake, executamos uma série de processos de extração, transformação e carga, usando como fonte única o Data Lake e carregando os dados dentro do Data Warehouse, já de acordo com as regras de negócio do sistema de Business Intelligence que foi definido por Paula na primeira fase.

Porém, o Data Warehouse não será a fonte dos nossos dashboards. Neste curso, explicarei o motivo disso. Agora, precisamos construir o que chamamos de Data Marts.

Os Data Marts são subconjuntos pequenos do Data Warehouse e é neles que os dashboards estarão visualizando como fonte os Data Mart.

Esses dashboards não são apenas bancos de dados, dentro desses bancos existem metadados, regras de negócios, regras hierárquicas e indicadores calculados. Desta forma, ao construir o dashboard, apenas visualizamos a informação que está no Data Mart.

Procuremos entender por que o Data Mart é importante e por que não podemos conectar o nosso dashboard diretamente ao Data Warehouse, já que ele é um banco separado do sistema transacional, ou seja, já é um banco gerencial. Por que não é apropriado fazer isso?

Vamos aprender e visualizar como construir esse Data Mart através do nosso projeto no Visual Studio.

Até o próximo vídeo!

Criando projeto no Analysis Services - Carga do Data Warehouse

Antes de iniciar este curso, vamos seguir o seguinte: já temos o projeto com a carga do Data Lake e a carga do Data Warehouse, ambos sempre utilizando a data de carga variável conforme os arquivos CSV disponibilizados no início da formação para a carga do Data Lake.

Construindo os data marts

Agora, vamos construir os data marts. Para tal, vamos realizar uma carga de dados de dois anos, isto é, do ano de 2021 e do ano de 2022, tanto para o Data Lake quanto para o Data Warehouse. Assim, podemos começar a trabalhar com o data mart.

Por isso, neste vídeo, vamos realizar uma carga completa do Data Warehouse. No diretório ETL (para obter um histórico maior de dados), que foi onde descompactamos os arquivos fontes deste curso, no início da formação.

No diretório ETL , entramos no arquivo mov para pegar os movimentos de itens de janeiro de 2021 (Movimento_Itens_2021_01.csv) até dezembro de 2022 (Movimento_Itens_2022_12.csv).

Copiamos esses arquivos e seguimos para o diretório "Fontes > DATA > FATOS > NOTAS > IN", onde iremos colar esses arquivos.

Repetiremos o mesmo processo para os arquivos referentes ao cabeçalho das notas fiscais. Então, voltamos ao diretório fontes e navegamos para "ETL > mov", mas agora são os arquivos cujo prefixo tem o nome "Movimento_Notas".

Copiamos de Janeiro de 2021 (Movimento_Notas_2021_01.csv) a Dezembro de 2022 (Movimento_Notas_2022_12.csv) e posteriormente retornamos ao diretório "Fontes > DATA > FATOS > NOTAS > IN", onde colamos esses arquivos.

Agora, vamos novamente para o diretório ETL (na pasta Fontes), mas agora no subdiretório compra. Novamente selecionamos e copiamos os arquivos de compras de Janeiro de 2021 (Compras_202101.csv) a Dezembro de 2022 (Compras_202212.csv).

Vamos ao diretório "Fontes > DATA > FATOS > NOTAS > IN", e colamos os dados.

É importante lembrar que este projeto é o resultado final do último Alura Mais que existe na formação. Então é importante que você tenha assistido esse último Alura Mais e efetuado a modificação do seu projeto.

Executamos diretamente o pacote de carga principal. Clicando com o botão direito do mouse em CargaPrincipal.dtsx do lado direito, escolhemos a opção "executar pacote". O processo será inicializado, inicialmente vai começar a fazer a carga do Data Lake.

Enquanto carrega os 24 meses do Data Lake, ele vai preencher a tabela TBL_tempo com as datas que estão sendo carregadas com base nos arquivos de texto que existem no diretório IN, tanto de compras quanto de notas.

Depois que terminar esse processo, ele vai carregar o Data Warehouse usando como intervalo de carga os mesmos dados carregados no Data Lake. Esse processo pode levar cerca de 5 a 10 minutos.

Após a conclusão da carga completa, iremos analisar o conteúdo do Data Warehouse.

Após finalizar a carga com sucesso, se selecionamos "CargaDataLake.dtsx[Design]", no canto superior esquerdo, no modo "progresso", observamos todo o processo de carga que foi feita em 10 minutos. A carga dos CSVs de 2 anos para dentro do Data Lake e a carga do Data Lake para o Data Warehouse, se clicarmos em "progresso", demorou 1 minuto e 6 segundos.

No SQL Server, selecionamos "Nova Consulta" na parte superior e abrimos do lado esquerdo a pasta DW_ATACADEZ e depois a Tabelas. Na parte superior esquerda, selecionamos o banco de dados "DW_ATACADEZ". Logo após, fazemos um SELECT COUNT (*) FROM na tabela de fato.

SELECT COUNT (*) FROM [dbo].[fact_venda]

Selecionamos o botão "Executar" na parte superior. Obtemos como retorno:

752399

Temos no banco 752.399 linhas.

Ao realizar um SELECT DISTINCT cod_mes FROM na dimensão do tempo, notamos que temos dados desde Janeiro de 2021 até Dezembro de 2022.

SELECT DISTINCT cod_mes FROM [dbo].[dim_tempo]

Conclusão

Pronto, temos o Data Warehouse carregado com 2 anos e estamos prontos para começar a construção da tabela. Até o próximo vídeo!

Sobre o curso Data Mart e Analysis Services: construindo um modelo OLAP multidimensional

O curso Data Mart e Analysis Services: construindo um modelo OLAP multidimensional possui 157 minutos de vídeos, em um total de 54 atividades. Gostou? Conheça nossos outros cursos de Business Intelligence em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Business Intelligence acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas