Boas-vindas ao curso Data Lake e Integration Services: construindo e carregando as dimensões da Alura! Meu nome é Victorino Vila e irei te acompanhar ao longo dessa jornada.
Audiodescrição: Victorino é um homem branco de cabelo liso e curto branco, barba grisalha, e olhos castanhos. Ele veste uma camisa preta e está em frente a uma parede branca iluminada em gradiente azul.
O projeto de business intelligence da AtacaDez continua a todo vapor! Paula já desenhou o modelo gerencial, escolheu a área de vendas como a primeira a ser contemplada com um sistema de informações gerenciais, e com base nesse modelo, ela desenhou o Data Warehouse.
Chegou o momento de começar a preparar a carga de dados das fontes vindas dos sistemas transacionais da empresa e transportá-la para o Data Warehouse.
Para isso, Paula escolheu o processo de ELT, usando uma base intermediária para concentrar os dados das diversas fontes antes de realmente transferir o dado para o Data Warehouse.
Esse repositório intermediário é chamado de Data Lake. Nosso curso irá tratar da carga de dados do Data Lake construindo tabelas das dimensões usando o Integration Services.
O SQL Server Integration Services é um serviço que permite construir fluxos de carga de dados através de diversos componentes que agilizam esse processo de carga.
Nesse curso, vamos conhecer todas as fontes de dados intermediárias fornecidas pela área de tecnologia da informação da AtacaDez para carregar o Data Warehouse.
Com base nessas fontes de dados, iremos entender qual será o desenho do Data Lake e começaremos a criar uma solução no Visual Studio usando o Integration Services para orquestrar a carga dos dados no Data Lake.
As fontes de dados virão em diversos formatos. No nosso exemplo, veremos os formatos CSV, XML, Excel, e JSON. Aprenderemos a ler dados dessas diferentes fontes.
Durante o desenho do processo de carga, vamos entender o funcionamento da ferramenta Integration Services e seus diversos componentes, dando ênfase a algumas características, como criar novas colunas usando fórmulas, classificar as colunas de uma tabela, e fazer a junção entre duas tabelas de fontes distintas.
Além disso, compreenderemos a importância da conversão de dados no Integration Services, e saberemos como gerenciar a inclusão e a alteração de dados no momento de gravação dos dados na tabela final.
Veremos como usar scripts em C# para ler dados em formato JSON, e também entenderemos o uso genérico da interface de desenho do Integration Services.
Espero que você goste desse curso. Um grande abraço e até o próximo vídeo!
Você se recorda que Paula apresentou às pessoas executivas da AtacaDez as fases para a implementação de um projeto de business intelligence? Vamos rever essas fases e identificar aonde o curso se encontra.
O primeiro passo para a implementação do projeto foi a construção da matriz dimensão-indicador, a qual construímos no primeiro curso da formação. Neste curso, conhecemos os processos de negócios da empresa e especificamos a documentação das dimensões, atributos, hierarquias, e indicadores do modelo.
Com base na matriz dimensão-indicador que criamos na documentação, criamos também o Data Warehouse. Então, temos o Data Warehouse criado. Agora precisamos identificar as fontes de dados e carregar os elementos que estão nessas fontes para o Data Warehouse, aplicando as regras de negócio.
Vimos que existem duas abordagens diferentes:
- Ou fazemos um processo de extração de dados, transformando-os e finalmente gravando no Data Warehouse, processo chamado ETL;
- Ou então fazemos um repositório intermediário, onde todos os dados brutos que vêm das fontes serão armazenados para depois passá-los para o Data Warehouse, processo chamado de ELT.
No nosso projeto, vamos seguir a abordagem ELT: criaremos um banco de dados intermediário que se chamará Data Lake, vamos carregar as fontes de dados brutas diretamente das fontes originais para o banco Data Lake, e em uma fase posterior, vamos carregar o Data Warehouse.
Este curso irá abordar apenas a identificação das fontes e a criação do Data Lake, bem como a carga dos dados para esse mesmo Data Lake.
Um abraço e até o próximo vídeo!
Para usar o banco de dados Data Lake para receber os dados brutos das fontes, nosso primeiro passo é criar o banco. Escolheremos o SQL Server para criar o banco de dados do Data Lake. Começaremos acessando o Management Studio para trabalhar nessa criação!
Uma vez aberto o Management Studio na máquina, nos conectamos ao usuário SA, usuário administrador cuja senha você especificou quando instalou o SQL Server.
No pesquisador de objetos à esquerda, temos uma série de bancos. Para criar o banco de dados do Data Lake, vamos clicar com o botão direito sobre o diretório "Bancos de Dados" e selecionar a opção "Novo Banco de Dados…". Na janela aberta, definiremos o nome como DL_ATACADEZ
.
No curso anterior, quando criamos o banco de dados do Data Warehouse (DW_ATACADEZ
), não precisamos ter log de transação no Data Warehouse, porque a atualização dele sempre será feita através de um processo batch, com uma carga em massa.
Nesse caso, se gravarmos log de transação, teremos logs muito grandes e o banco de dados do Data Warehouse não precisará fazer, por exemplo, backups incrementais; serão feitos apenas backups full do banco de dados.
Como não precisamos de backups incrementais nem de controlar transações, seria interessante desativar esse log de transações.
Esse mesmo conceito que aplicamos no Data Warehouse, também será aplicado no Data Lake. O Data Lake também terá sua atualização através de processos em batch, haverá grandes quantidades de linhas sendo atualizadas no Data Lake, e ele não precisará ter log de transações.
Para isso, criaremos uma nova consulta com a conexão feita com o banco DL_ATACADEZ
e usaremos o seguinte comando:
ALTER DATABASE DL_ATACADEZ SET RECOVERY SIMPLE
Ao executá-lo, temos o banco de dados do Data Lake sem o controle de transações, igual ao Data Warehouse.
O banco do Data Lake está criado, porém, ainda está vazio. Durante este curso, daremos continuidade à criação das tabelas desse banco e faremos a carga dos dados das fontes para esse novo banco de dados!
O curso Data Lake e Integration Services: construindo e carregando as dimensões possui 226 minutos de vídeos, em um total de 64 atividades. Gostou? Conheça nossos outros cursos de Business Intelligence em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.