Alura > Cursos de Data Science > Cursos de Engenharia de Dados > Conteúdos de Engenharia de Dados > Primeiras aulas do curso Databricks e Data Factory: criando e orquestrando pipelines na nuvem

Databricks e Data Factory: criando e orquestrando pipelines na nuvem

Configurando recursos da Azure - Apresentação

A instrutora Millena Gená vai te acompanhar nesse curso feito para pessoas que querem utilizar Databricks junto com outros recursos da Azure para criar e orquestrar pipelines.

Millena Gená é uma mulher branca de olhos castanhos. Tem cabelos longos, escuros e cacheados que estão em um trança. Está de batom vermelho e blusa preta com estampa verde da escola de dados. Está sentada em uma cadeira gamer preta e azul. Ao fundo, guarda-roupa preto iluminado com luzes azuis e rosas e decorações relacionadas a Harry Potter e Friends.

O que vamos aprender?

No decorrer desse curso, vamos atuar como pessoas engenheiras de dados em uma empresa imobiliária. Vamos ter o desafio de construir todo o pipeline de engenharia de dados, utilizando as ferramentas recomendadas pela empresa.

Durante o desenvolvimento desse projeto, vamos aprender diversos conteúdos, como:

Ao final desse curso, você vai conseguir utilizar diversos recursos da Azure juntamente com o Databricks. Também vai ter um projeto de engenharia de dados a mais no seu portfólio do GitHub.

Pré-requisitos

Para que você consiga aproveitar esse conteúdo da melhor forma, é muito importante que você já tenha alguns conhecimentos sobre:

Vale ressaltar que no decorrer do curso, vamos utilizar uma plataforma de Cloud chamada Microsoft Azure.

Como qualquer outro serviço de Cloud, ela também gera custos caso você não tenha mais acesso ao período gratuito oferecido pela plataforma.

Caso você tenha essa disponibilidade, sugerimos que tente fazer o curso o mais rápido possível. Se puder executar o projeto em um ou dois dias, você vai conseguir economizar e não ter tantos gastos na plataforma de Cloud.

Agora que já temos tudo alinhado, vamos começar a trabalhar com o Databricks e o serviço de Cloud da Azure.

Configurando recursos da Azure - Entendendo o pipeline

Fomos contratados como pessoas engenheiras de dados em uma empresa imobiliária. Como nossa primeira tarefa, precisamos desenvolver um pipeline de engenharia de dados, usando recursos da ferramenta de Cloud utilizada pela empresa, a Microsoft Azure.

Estrutura do pipeline

Para entender como esse pipeline deve ser estruturado, vamos analisar uma imagem com a visão geral de todos os passos que precisamos realizar para construir nosso pipeline.

Diagrama de passos para construção do pipeline. É constituído por 5 retângulos verdes, lado a lado, que se interligam por meio de setas. Cada retângulo tem o nome de um passo sendo, respectivamente, "Camada Inbound", "Transformação", "Camada Bronze", "Transformação" e "Camada Silver".

Primeiramente, vamos precisar construir e estruturar um Data Lake, utilizando o recurso do Data Lake Gen2 da própria Azure. Esse Data Lake vai ser estruturado em três camadas:

A camada Inbound é a camada de entrada, onde vamos adicionar os dados na versão bruta. Os dados que vamos receber vão ser dados de imóveis, já que trabalhamos em uma empresa imobiliária.

Com esses dados na nossa camada de entrada, vamos utilizar a ferramenta Databricks para aplicar determinadas transformações nesses dados e passá-los pelas camadas Bronze e Silver do Data Lake.

Uma vez que tivermos todo esse fluxo de dados estruturado, vamos utilizar uma ferramenta chamada Azure Data Factory para orquestrar e automatizar a execução desse pipeline de acordo com o intervalo de tempo definido pela empresa.

Trello

Para que consigamos construir todas as etapas desse pipeline da melhor forma, organizamos um Trello com todas as atividades que vamos precisar realizar para finalizar esse projeto.

Nesse Trello, temos quatro colunas: "Informações do projeto", "A fazer", "Em andamento" e "Concluído".

Na primeira coluna de "Informações do projeto", temos dois cards (cartões). O primeiro, intitulado "Projeto", é onde vamos encontrar todas as informações relacionadas ao nosso projeto e o contexto que já te apresentamos.

Nele, também temos as ferramentas utilizadas na empresa que vamos utilizar no desenvolvimento do projeto, como a cloud da Azure, ferramenta Databricks, linguagem de programação Scala e o Azure Data Factory.

Além disso, o segundo cartão de "Base de dados" é onde encontramos o link para baixar a base de dados em seu estado mais bruto.

A segunda coluna desse Trello é chamada de "A fazer". É nessa coluna que vamos encontrar cada um dos cartões com as diversas atividades que vamos realizar no decorrer do curso para concluir o pipeline.

Vamos passar rapidamente por cada um desses cartões para saber o que são essas atividades de forma geral.

No decorrer da primeira aula, vamos realizar a atividade de:

Na segunda aula, os seguintes cartões serão desenvolvidos:

Na terceira aula, vamos concluir uma atividade com vários passos:

Na quarta aula, trabalharemos com os próximos três cartões:

Na quinta aula, vamos realizar as seguintes atividades:

Por fim, na sexta aula, vamos realizar as duas últimas atividades:

Para finalizar, as colunas de "Em andamento" e "Concluído" ainda não têm nenhum cartão. À medida que avançamos no projeto, vamos arrastar os cartões para essas colunas.

Agora que já conhecemos todas as tarefas do pipeline que precisamos construir, podemos começar a trabalhar.

Configurando recursos da Azure - Criando um grupo de recursos

Vamos começar analisando o primeiro cartão da coluna "A fazer" do Trello para conferir quais atividades precisamos realizar para começar o pipeline.

No cartão intitulado "Configurar recursos na Azure", vamos encontrar uma descrição das tarefas que devemos realizar e também um checklist com todas as tarefas. Nesse caso, temos três tarefas:

Não vamos realizar as duas primeiras tarefas no decorrer desse vídeo, mas o passo a passo para sua realização está na atividade "Preparando o Ambiente". Dessa forma, você vai conseguir criar sua conta na Azure e criar um alerta de gastos.

Por isso, é muito importante que você já tenha realizado essas duas atividades para continuar a acompanhar esse vídeo.

Conta na Azure e alerta de gastos

Quando você foi criar uma conta da Microsoft Azure, vai ser solicitado o cadastro de um cartão de crédito. Isso acontece quando você cria a conta em qualquer serviço de nuvem, porque todos geram cobranças.

No caso da Azure, você consegue ter acesso a duzentos dólares gratuitos para executar todos os recursos existentes durante um mês, caso você ainda não tenha nenhuma conta nessa plataforma. Essa valor é mais que suficiente para todos os recursos que vamos utilizar no decorrer desse curso.

No entanto, caso você já tenha uma conta na Azure há mais de trinta dias, esses duzentos dólares já vão ter expirado. Ainda que crie outra conta, não vai conseguir ter acesso a esse crédito novamente. Isso faz parte do regulamento desse serviço de cloud.

Consequentemente, você vai ter gastos no seu cartão de crédito cadastrado no momento de criação da conta.

Por isso, é importante realizar essa tarefa de criação do alerta de gastos. Assim, você vai conseguir ter um maior controle de quando você gasta com cada um dos recursos criados no decorrer do curso.

Dito isso, vamos marcar essas duas primeiras tarefas como concluídas. E também vamos arrastar esse cartão de "Configurar recursos na Azure" para a coluna "Em andamento" para concluir a terceira tarefa de criação de grupo de recursos.

Grupo de recursos

No navegador, vamos acessar a plataforma da Azure.

A página inicial da conta contém as seções de "Serviços do Azure", "Recursos", "Navegar" e "Ferramentas". Sua interface pode ser diferente, pois os recursos que aparecem são os que mais acessamos no decorrer da jornada na plataforma.

O recurso que nos interessa nesse momento é o "Grupo de recursos". Vamos descobrir como criá-lo.

Para criar um novo recurso da Azure, podemos clicar na opção "Criar um recurso" na primeira seção "Serviços do Azure".

Na janela "Criar um recurso", podemos digitar o nome do recurso que queremos criar no campo de pesquisa. Nesse caso, digitamos "grupo de recursos" e pressionamos a tecla "Enter".

Como primeiro resultado temos o "Grupo de recursos" com a descrição do serviço:

Gerenciar e implantar recursos juntos em um aplicativo.

É como se fosse uma pasta especial onde vamos organizar e gerenciar todos os outros recursos que criamos dentro da Azure para um mesmo projeto.

Em seguida, vamos selecionar a opção "Criar > Grupo de recursos" do resultado "Grupo de recursos". Na página que se abre, precisamos colocar algumas informações básicas para criação desse grupo de recursos.

Em detalhes do projeto, a primeira informação é sobre a "assinatura", a qual foi selecionada automaticamente. A próxima opção é o "grupo de recursos", ou seja, o nome que queremos dar a ele. Nesse caso, vamos chamar de my_resource_group que significa "meu grupo de recursos" em inglês.

Em detalhes do recurso, a próxima opção é para selecionar a região onde esses recursos será criado. No nosso caso, vamos trocar a região "(US) East US" que vem como padrão para "(US) East US 2".

Vamos utilizar essa região porque é uma região mais barata para construir os recursos e é mais que suficiente para o que vamos desenvolver no projeto.

Feito isso, não queremos adicionar mais nenhuma informação. Por isso, vamos clicar no botão "Revisar + criar" localizado no canto inferior esquerdo.

Com isso, temos o seguinte aviso:

Validação aprovada.

Ou seja, está tudo certo com o recurso e já podemos criá-lo. Para isso, clicamos no botão "Criar" localizado no canto inferior esquerdo.

Quando o grupo de recursos finalizar sua criação, vai aparecer um pop-up no canto superior direito da tela com a seguinte informação:

Grupo de recursos criado

O grupo de recursos 'my_resource_group' foi criado na assinatura 'Azure subscription 1' com êxito.

Caso você perca o pop-up, basta clicar na opção de notificação com ícone de sino no menu superior. Nessa notificação, podemos clicar na opção "Ir para o grupo de recursos".

Em seguida, abre-se a página com o grupo de recursos com seu nome no canto superior esquerdo. Atualmente, não temos nada nesse grupo porque ainda não criamos nenhum recurso dentro dele.

Conclusão

Com isso, finalizamos a última tarefa do primeiro cartão. Por isso, vamos voltar ao Trello, abrir "Configurar recursos na Azure" e marcar a tarefa "Criar grupo de recursos" como concluída. Também vamos arrastar esse cartão para a coluna de "Concluído".

Com nosso grupo de recursos criado, podemos começar a criar os outros recursos da Azure necessários para o pipeline.

Sobre o curso Databricks e Data Factory: criando e orquestrando pipelines na nuvem

O curso Databricks e Data Factory: criando e orquestrando pipelines na nuvem possui 179 minutos de vídeos, em um total de 60 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Engenharia de Dados acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas