A instrutora Millena Gená vai te acompanhar nesse curso feito para pessoas que querem utilizar Databricks junto com outros recursos da Azure para criar e orquestrar pipelines.
Millena Gená é uma mulher branca de olhos castanhos. Tem cabelos longos, escuros e cacheados que estão em um trança. Está de batom vermelho e blusa preta com estampa verde da escola de dados. Está sentada em uma cadeira gamer preta e azul. Ao fundo, guarda-roupa preto iluminado com luzes azuis e rosas e decorações relacionadas a Harry Potter e Friends.
No decorrer desse curso, vamos atuar como pessoas engenheiras de dados em uma empresa imobiliária. Vamos ter o desafio de construir todo o pipeline de engenharia de dados, utilizando as ferramentas recomendadas pela empresa.
Durante o desenvolvimento desse projeto, vamos aprender diversos conteúdos, como:
Ao final desse curso, você vai conseguir utilizar diversos recursos da Azure juntamente com o Databricks. Também vai ter um projeto de engenharia de dados a mais no seu portfólio do GitHub.
Para que você consiga aproveitar esse conteúdo da melhor forma, é muito importante que você já tenha alguns conhecimentos sobre:
Vale ressaltar que no decorrer do curso, vamos utilizar uma plataforma de Cloud chamada Microsoft Azure.
Como qualquer outro serviço de Cloud, ela também gera custos caso você não tenha mais acesso ao período gratuito oferecido pela plataforma.
Caso você tenha essa disponibilidade, sugerimos que tente fazer o curso o mais rápido possível. Se puder executar o projeto em um ou dois dias, você vai conseguir economizar e não ter tantos gastos na plataforma de Cloud.
Agora que já temos tudo alinhado, vamos começar a trabalhar com o Databricks e o serviço de Cloud da Azure.
Fomos contratados como pessoas engenheiras de dados em uma empresa imobiliária. Como nossa primeira tarefa, precisamos desenvolver um pipeline de engenharia de dados, usando recursos da ferramenta de Cloud utilizada pela empresa, a Microsoft Azure.
Para entender como esse pipeline deve ser estruturado, vamos analisar uma imagem com a visão geral de todos os passos que precisamos realizar para construir nosso pipeline.
Primeiramente, vamos precisar construir e estruturar um Data Lake, utilizando o recurso do Data Lake Gen2 da própria Azure. Esse Data Lake vai ser estruturado em três camadas:
A camada Inbound é a camada de entrada, onde vamos adicionar os dados na versão bruta. Os dados que vamos receber vão ser dados de imóveis, já que trabalhamos em uma empresa imobiliária.
Com esses dados na nossa camada de entrada, vamos utilizar a ferramenta Databricks para aplicar determinadas transformações nesses dados e passá-los pelas camadas Bronze e Silver do Data Lake.
Uma vez que tivermos todo esse fluxo de dados estruturado, vamos utilizar uma ferramenta chamada Azure Data Factory para orquestrar e automatizar a execução desse pipeline de acordo com o intervalo de tempo definido pela empresa.
Para que consigamos construir todas as etapas desse pipeline da melhor forma, organizamos um Trello com todas as atividades que vamos precisar realizar para finalizar esse projeto.
Nesse Trello, temos quatro colunas: "Informações do projeto", "A fazer", "Em andamento" e "Concluído".
Na primeira coluna de "Informações do projeto", temos dois cards (cartões). O primeiro, intitulado "Projeto", é onde vamos encontrar todas as informações relacionadas ao nosso projeto e o contexto que já te apresentamos.
Nele, também temos as ferramentas utilizadas na empresa que vamos utilizar no desenvolvimento do projeto, como a cloud da Azure, ferramenta Databricks, linguagem de programação Scala e o Azure Data Factory.
Além disso, o segundo cartão de "Base de dados" é onde encontramos o link para baixar a base de dados em seu estado mais bruto.
A segunda coluna desse Trello é chamada de "A fazer". É nessa coluna que vamos encontrar cada um dos cartões com as diversas atividades que vamos realizar no decorrer do curso para concluir o pipeline.
Vamos passar rapidamente por cada um desses cartões para saber o que são essas atividades de forma geral.
No decorrer da primeira aula, vamos realizar a atividade de:
Na segunda aula, os seguintes cartões serão desenvolvidos:
Na terceira aula, vamos concluir uma atividade com vários passos:
Na quarta aula, trabalharemos com os próximos três cartões:
Na quinta aula, vamos realizar as seguintes atividades:
Por fim, na sexta aula, vamos realizar as duas últimas atividades:
Para finalizar, as colunas de "Em andamento" e "Concluído" ainda não têm nenhum cartão. À medida que avançamos no projeto, vamos arrastar os cartões para essas colunas.
Agora que já conhecemos todas as tarefas do pipeline que precisamos construir, podemos começar a trabalhar.
Vamos começar analisando o primeiro cartão da coluna "A fazer" do Trello para conferir quais atividades precisamos realizar para começar o pipeline.
No cartão intitulado "Configurar recursos na Azure", vamos encontrar uma descrição das tarefas que devemos realizar e também um checklist com todas as tarefas. Nesse caso, temos três tarefas:
Não vamos realizar as duas primeiras tarefas no decorrer desse vídeo, mas o passo a passo para sua realização está na atividade "Preparando o Ambiente". Dessa forma, você vai conseguir criar sua conta na Azure e criar um alerta de gastos.
Por isso, é muito importante que você já tenha realizado essas duas atividades para continuar a acompanhar esse vídeo.
Quando você foi criar uma conta da Microsoft Azure, vai ser solicitado o cadastro de um cartão de crédito. Isso acontece quando você cria a conta em qualquer serviço de nuvem, porque todos geram cobranças.
No caso da Azure, você consegue ter acesso a duzentos dólares gratuitos para executar todos os recursos existentes durante um mês, caso você ainda não tenha nenhuma conta nessa plataforma. Essa valor é mais que suficiente para todos os recursos que vamos utilizar no decorrer desse curso.
No entanto, caso você já tenha uma conta na Azure há mais de trinta dias, esses duzentos dólares já vão ter expirado. Ainda que crie outra conta, não vai conseguir ter acesso a esse crédito novamente. Isso faz parte do regulamento desse serviço de cloud.
Consequentemente, você vai ter gastos no seu cartão de crédito cadastrado no momento de criação da conta.
Por isso, é importante realizar essa tarefa de criação do alerta de gastos. Assim, você vai conseguir ter um maior controle de quando você gasta com cada um dos recursos criados no decorrer do curso.
Dito isso, vamos marcar essas duas primeiras tarefas como concluídas. E também vamos arrastar esse cartão de "Configurar recursos na Azure" para a coluna "Em andamento" para concluir a terceira tarefa de criação de grupo de recursos.
No navegador, vamos acessar a plataforma da Azure.
A página inicial da conta contém as seções de "Serviços do Azure", "Recursos", "Navegar" e "Ferramentas". Sua interface pode ser diferente, pois os recursos que aparecem são os que mais acessamos no decorrer da jornada na plataforma.
O recurso que nos interessa nesse momento é o "Grupo de recursos". Vamos descobrir como criá-lo.
Para criar um novo recurso da Azure, podemos clicar na opção "Criar um recurso" na primeira seção "Serviços do Azure".
Na janela "Criar um recurso", podemos digitar o nome do recurso que queremos criar no campo de pesquisa. Nesse caso, digitamos "grupo de recursos" e pressionamos a tecla "Enter".
Como primeiro resultado temos o "Grupo de recursos" com a descrição do serviço:
Gerenciar e implantar recursos juntos em um aplicativo.
É como se fosse uma pasta especial onde vamos organizar e gerenciar todos os outros recursos que criamos dentro da Azure para um mesmo projeto.
Em seguida, vamos selecionar a opção "Criar > Grupo de recursos" do resultado "Grupo de recursos". Na página que se abre, precisamos colocar algumas informações básicas para criação desse grupo de recursos.
Em detalhes do projeto, a primeira informação é sobre a "assinatura", a qual foi selecionada automaticamente. A próxima opção é o "grupo de recursos", ou seja, o nome que queremos dar a ele. Nesse caso, vamos chamar de my_resource_group
que significa "meu grupo de recursos" em inglês.
Em detalhes do recurso, a próxima opção é para selecionar a região onde esses recursos será criado. No nosso caso, vamos trocar a região "(US) East US" que vem como padrão para "(US) East US 2".
Vamos utilizar essa região porque é uma região mais barata para construir os recursos e é mais que suficiente para o que vamos desenvolver no projeto.
Feito isso, não queremos adicionar mais nenhuma informação. Por isso, vamos clicar no botão "Revisar + criar" localizado no canto inferior esquerdo.
Com isso, temos o seguinte aviso:
Validação aprovada.
Ou seja, está tudo certo com o recurso e já podemos criá-lo. Para isso, clicamos no botão "Criar" localizado no canto inferior esquerdo.
Quando o grupo de recursos finalizar sua criação, vai aparecer um pop-up no canto superior direito da tela com a seguinte informação:
Grupo de recursos criado
O grupo de recursos 'my_resource_group' foi criado na assinatura 'Azure subscription 1' com êxito.
Caso você perca o pop-up, basta clicar na opção de notificação com ícone de sino no menu superior. Nessa notificação, podemos clicar na opção "Ir para o grupo de recursos".
Em seguida, abre-se a página com o grupo de recursos com seu nome no canto superior esquerdo. Atualmente, não temos nada nesse grupo porque ainda não criamos nenhum recurso dentro dele.
Com isso, finalizamos a última tarefa do primeiro cartão. Por isso, vamos voltar ao Trello, abrir "Configurar recursos na Azure" e marcar a tarefa "Criar grupo de recursos" como concluída. Também vamos arrastar esse cartão para a coluna de "Concluído".
Com nosso grupo de recursos criado, podemos começar a criar os outros recursos da Azure necessários para o pipeline.
O curso Databricks e Data Factory: criando e orquestrando pipelines na nuvem possui 179 minutos de vídeos, em um total de 60 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.