Data Lake e Integration Services: construindo e carregando as dimensões

Fonte de dados - Apresentação

Boas-vindas ao curso Data Lake e Integration Services: construindo e carregando as dimensões da Alura! Meu nome é Victorino Vila e irei te acompanhar ao longo dessa jornada.

Audiodescrição: Victorino é um homem branco de cabelo liso e curto branco, barba grisalha, e olhos castanhos. Ele veste uma camisa preta e está em frente a uma parede branca iluminada em gradiente azul.

O projeto de business intelligence da AtacaDez continua a todo vapor! Paula já desenhou o modelo gerencial, escolheu a área de vendas como a primeira a ser contemplada com um sistema de informações gerenciais, e com base nesse modelo, ela desenhou o Data Warehouse.

Chegou o momento de começar a preparar a carga de dados das fontes vindas dos sistemas transacionais da empresa e transportá-la para o Data Warehouse.

Para isso, Paula escolheu o processo de ELT, usando uma base intermediária para concentrar os dados das diversas fontes antes de realmente transferir o dado para o Data Warehouse.

Esse repositório intermediário é chamado de Data Lake. Nosso curso irá tratar da carga de dados do Data Lake construindo tabelas das dimensões usando o Integration Services.

O SQL Server Integration Services é um serviço que permite construir fluxos de carga de dados através de diversos componentes que agilizam esse processo de carga.

O que vamos aprender?

Nesse curso, vamos conhecer todas as fontes de dados intermediárias fornecidas pela área de tecnologia da informação da AtacaDez para carregar o Data Warehouse.

Com base nessas fontes de dados, iremos entender qual será o desenho do Data Lake e começaremos a criar uma solução no Visual Studio usando o Integration Services para orquestrar a carga dos dados no Data Lake.

As fontes de dados virão em diversos formatos. No nosso exemplo, veremos os formatos CSV, XML, Excel, e JSON. Aprenderemos a ler dados dessas diferentes fontes.

Durante o desenho do processo de carga, vamos entender o funcionamento da ferramenta Integration Services e seus diversos componentes, dando ênfase a algumas características, como criar novas colunas usando fórmulas, classificar as colunas de uma tabela, e fazer a junção entre duas tabelas de fontes distintas.

Além disso, compreenderemos a importância da conversão de dados no Integration Services, e saberemos como gerenciar a inclusão e a alteração de dados no momento de gravação dos dados na tabela final.

Veremos como usar scripts em C# para ler dados em formato JSON, e também entenderemos o uso genérico da interface de desenho do Integration Services.

Espero que você goste desse curso. Um grande abraço e até o próximo vídeo!

Fonte de dados - Fases do projeto de BI

Você se recorda que Paula apresentou às pessoas executivas da AtacaDez as fases para a implementação de um projeto de business intelligence? Vamos rever essas fases e identificar aonde o curso se encontra.

Fases do projeto de BI

O primeiro passo para a implementação do projeto foi a construção da matriz dimensão-indicador, a qual construímos no primeiro curso da formação. Neste curso, conhecemos os processos de negócios da empresa e especificamos a documentação das dimensões, atributos, hierarquias, e indicadores do modelo.

Com base na matriz dimensão-indicador que criamos na documentação, criamos também o Data Warehouse. Então, temos o Data Warehouse criado. Agora precisamos identificar as fontes de dados e carregar os elementos que estão nessas fontes para o Data Warehouse, aplicando as regras de negócio.

Vimos que existem duas abordagens diferentes:

Ou fazemos um processo de extração de dados, transformando-os e finalmente gravando no Data Warehouse, processo chamado ETL;
Ou então fazemos um repositório intermediário, onde todos os dados brutos que vêm das fontes serão armazenados para depois passá-los para o Data Warehouse, processo chamado de ELT.

No nosso projeto, vamos seguir a abordagem ELT: criaremos um banco de dados intermediário que se chamará Data Lake, vamos carregar as fontes de dados brutas diretamente das fontes originais para o banco Data Lake, e em uma fase posterior, vamos carregar o Data Warehouse.

Conclusão

Este curso irá abordar apenas a identificação das fontes e a criação do Data Lake, bem como a carga dos dados para esse mesmo Data Lake.

Um abraço e até o próximo vídeo!

Fonte de dados - Criação do Data Lake

Para usar o banco de dados Data Lake para receber os dados brutos das fontes, nosso primeiro passo é criar o banco. Escolheremos o SQL Server para criar o banco de dados do Data Lake. Começaremos acessando o Management Studio para trabalhar nessa criação!

Criação do Data Lake

Uma vez aberto o Management Studio na máquina, nos conectamos ao usuário SA, usuário administrador cuja senha você especificou quando instalou o SQL Server.

No pesquisador de objetos à esquerda, temos uma série de bancos. Para criar o banco de dados do Data Lake, vamos clicar com o botão direito sobre o diretório "Bancos de Dados" e selecionar a opção "Novo Banco de Dados…". Na janela aberta, definiremos o nome como DL_ATACADEZ.

No curso anterior, quando criamos o banco de dados do Data Warehouse (DW_ATACADEZ), não precisamos ter log de transação no Data Warehouse, porque a atualização dele sempre será feita através de um processo batch, com uma carga em massa.

Nesse caso, se gravarmos log de transação, teremos logs muito grandes e o banco de dados do Data Warehouse não precisará fazer, por exemplo, backups incrementais; serão feitos apenas backups full do banco de dados.

Como não precisamos de backups incrementais nem de controlar transações, seria interessante desativar esse log de transações.

Esse mesmo conceito que aplicamos no Data Warehouse, também será aplicado no Data Lake. O Data Lake também terá sua atualização através de processos em batch, haverá grandes quantidades de linhas sendo atualizadas no Data Lake, e ele não precisará ter log de transações.

Para isso, criaremos uma nova consulta com a conexão feita com o banco DL_ATACADEZ e usaremos o seguinte comando:

ALTER DATABASE DL_ATACADEZ SET RECOVERY SIMPLE

Ao executá-lo, temos o banco de dados do Data Lake sem o controle de transações, igual ao Data Warehouse.

Conclusão

O banco do Data Lake está criado, porém, ainda está vazio. Durante este curso, daremos continuidade à criação das tabelas desse banco e faremos a carga dos dados das fontes para esse novo banco de dados!

Sobre o curso Data Lake e Integration Services: construindo e carregando as dimensões

O curso Data Lake e Integration Services: construindo e carregando as dimensões possui 226 minutos de vídeos, em um total de 64 atividades. Gostou? Conheça nossos outros cursos de Business Intelligence em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Fonte de dados
Criando as tabelas de dimensões
Carga de dados de empresas
Carga de dados de clientes
Carga de dados de produtos

Aprenda Business Intelligence acessando integralmente esse e outros cursos, comece hoje!

Plus
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
R$109/mês
1 ano de Alura
Valor total R$1.308 em até 12x
Matricule-se
Assine o PLUS e garanta:
- Acesso a TODOS os cursos por 1 ano
  Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
- Certificado
  A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
- Mentorias com especialistas
  No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
- Comunidade exclusiva
  Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
- Acesso ao conteúdo das Imersões
  Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
- App Android e iOS para estudar onde quiser
  Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
O mais escolhido
Pro
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
R$149/mês
1 ano de Alura
Valor total R$1.788 em até 12x
Matricule-se
Todos os benefícios do PLUS e mais vantagens exclusivas:
- Luri , a inteligência artificial da Alura
  Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
- Alura Língua - Inglês e Espanhol
  Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Ultra
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
R$209/mês
1 ano de Alura
Valor total R$2.508 em até 12x
Matricule-se
Todos os benefícios do PRO e mais vantagens exclusivas:
- Luri , com mensagens ILIMITADAS
  Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
- Luri Vision , a IA que enxerga suas dúvidas
  Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
- 6 Ebooks da Casa do Código
  Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.

Conheça os Planos para Empresas

Data Lake e Integration Services: construindo e carregando as dimensões

Fonte de dados - Apresentação

O que vamos aprender?

Fonte de dados - Fases do projeto de BI

Fases do projeto de BI

Conclusão

Fonte de dados - Criação do Data Lake

Criação do Data Lake

Conclusão

Sobre o curso Data Lake e Integration Services: construindo e carregando as dimensões

Aprenda Business Intelligence acessando integralmente esse e outros cursos, comece hoje!

Plus

Pro

Ultra

Cursos

Cursos universitários FIAP