Alura > Cursos de Data Science > Cursos de Business Intelligence > Conteúdos de Business Intelligence > Primeiras aulas do curso Data Lake e Integration Services: construindo e carregando as dimensões

Data Lake e Integration Services: construindo e carregando as dimensões

Fonte de dados - Apresentação

Boas-vindas ao curso Data Lake e Integration Services: construindo e carregando as dimensões da Alura! Meu nome é Victorino Vila e irei te acompanhar ao longo dessa jornada.

Audiodescrição: Victorino é um homem branco de cabelo liso e curto branco, barba grisalha, e olhos castanhos. Ele veste uma camisa preta e está em frente a uma parede branca iluminada em gradiente azul.

O projeto de business intelligence da AtacaDez continua a todo vapor! Paula já desenhou o modelo gerencial, escolheu a área de vendas como a primeira a ser contemplada com um sistema de informações gerenciais, e com base nesse modelo, ela desenhou o Data Warehouse.

Chegou o momento de começar a preparar a carga de dados das fontes vindas dos sistemas transacionais da empresa e transportá-la para o Data Warehouse.

Para isso, Paula escolheu o processo de ELT, usando uma base intermediária para concentrar os dados das diversas fontes antes de realmente transferir o dado para o Data Warehouse.

Esse repositório intermediário é chamado de Data Lake. Nosso curso irá tratar da carga de dados do Data Lake construindo tabelas das dimensões usando o Integration Services.

O SQL Server Integration Services é um serviço que permite construir fluxos de carga de dados através de diversos componentes que agilizam esse processo de carga.

O que vamos aprender?

Nesse curso, vamos conhecer todas as fontes de dados intermediárias fornecidas pela área de tecnologia da informação da AtacaDez para carregar o Data Warehouse.

Com base nessas fontes de dados, iremos entender qual será o desenho do Data Lake e começaremos a criar uma solução no Visual Studio usando o Integration Services para orquestrar a carga dos dados no Data Lake.

As fontes de dados virão em diversos formatos. No nosso exemplo, veremos os formatos CSV, XML, Excel, e JSON. Aprenderemos a ler dados dessas diferentes fontes.

Durante o desenho do processo de carga, vamos entender o funcionamento da ferramenta Integration Services e seus diversos componentes, dando ênfase a algumas características, como criar novas colunas usando fórmulas, classificar as colunas de uma tabela, e fazer a junção entre duas tabelas de fontes distintas.

Além disso, compreenderemos a importância da conversão de dados no Integration Services, e saberemos como gerenciar a inclusão e a alteração de dados no momento de gravação dos dados na tabela final.

Veremos como usar scripts em C# para ler dados em formato JSON, e também entenderemos o uso genérico da interface de desenho do Integration Services.

Espero que você goste desse curso. Um grande abraço e até o próximo vídeo!

Fonte de dados - Fases do projeto de BI

Você se recorda que Paula apresentou às pessoas executivas da AtacaDez as fases para a implementação de um projeto de business intelligence? Vamos rever essas fases e identificar aonde o curso se encontra.

Fases do projeto de BI

O primeiro passo para a implementação do projeto foi a construção da matriz dimensão-indicador, a qual construímos no primeiro curso da formação. Neste curso, conhecemos os processos de negócios da empresa e especificamos a documentação das dimensões, atributos, hierarquias, e indicadores do modelo.

Com base na matriz dimensão-indicador que criamos na documentação, criamos também o Data Warehouse. Então, temos o Data Warehouse criado. Agora precisamos identificar as fontes de dados e carregar os elementos que estão nessas fontes para o Data Warehouse, aplicando as regras de negócio.

Vimos que existem duas abordagens diferentes:

  1. Ou fazemos um processo de extração de dados, transformando-os e finalmente gravando no Data Warehouse, processo chamado ETL;
  2. Ou então fazemos um repositório intermediário, onde todos os dados brutos que vêm das fontes serão armazenados para depois passá-los para o Data Warehouse, processo chamado de ELT.

No nosso projeto, vamos seguir a abordagem ELT: criaremos um banco de dados intermediário que se chamará Data Lake, vamos carregar as fontes de dados brutas diretamente das fontes originais para o banco Data Lake, e em uma fase posterior, vamos carregar o Data Warehouse.

Conclusão

Este curso irá abordar apenas a identificação das fontes e a criação do Data Lake, bem como a carga dos dados para esse mesmo Data Lake.

Um abraço e até o próximo vídeo!

Fonte de dados - Criação do Data Lake

Para usar o banco de dados Data Lake para receber os dados brutos das fontes, nosso primeiro passo é criar o banco. Escolheremos o SQL Server para criar o banco de dados do Data Lake. Começaremos acessando o Management Studio para trabalhar nessa criação!

Criação do Data Lake

Uma vez aberto o Management Studio na máquina, nos conectamos ao usuário SA, usuário administrador cuja senha você especificou quando instalou o SQL Server.

No pesquisador de objetos à esquerda, temos uma série de bancos. Para criar o banco de dados do Data Lake, vamos clicar com o botão direito sobre o diretório "Bancos de Dados" e selecionar a opção "Novo Banco de Dados…". Na janela aberta, definiremos o nome como DL_ATACADEZ.

No curso anterior, quando criamos o banco de dados do Data Warehouse (DW_ATACADEZ), não precisamos ter log de transação no Data Warehouse, porque a atualização dele sempre será feita através de um processo batch, com uma carga em massa.

Nesse caso, se gravarmos log de transação, teremos logs muito grandes e o banco de dados do Data Warehouse não precisará fazer, por exemplo, backups incrementais; serão feitos apenas backups full do banco de dados.

Como não precisamos de backups incrementais nem de controlar transações, seria interessante desativar esse log de transações.

Esse mesmo conceito que aplicamos no Data Warehouse, também será aplicado no Data Lake. O Data Lake também terá sua atualização através de processos em batch, haverá grandes quantidades de linhas sendo atualizadas no Data Lake, e ele não precisará ter log de transações.

Para isso, criaremos uma nova consulta com a conexão feita com o banco DL_ATACADEZ e usaremos o seguinte comando:

ALTER DATABASE DL_ATACADEZ SET RECOVERY SIMPLE

Ao executá-lo, temos o banco de dados do Data Lake sem o controle de transações, igual ao Data Warehouse.

Conclusão

O banco do Data Lake está criado, porém, ainda está vazio. Durante este curso, daremos continuidade à criação das tabelas desse banco e faremos a carga dos dados das fontes para esse novo banco de dados!

Sobre o curso Data Lake e Integration Services: construindo e carregando as dimensões

O curso Data Lake e Integration Services: construindo e carregando as dimensões possui 226 minutos de vídeos, em um total de 64 atividades. Gostou? Conheça nossos outros cursos de Business Intelligence em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Business Intelligence acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas