Alura > Cursos de Data Science > Cursos de Engenharia de Dados > Conteúdos de Engenharia de Dados > Primeiras aulas do curso Databricks: conhecendo a ferramenta

Databricks: conhecendo a ferramenta

Iniciando com o Databricks - Apresentação

Olá! Meu nome é Rodrigo Dias e irei te acompanhar neste curso sobre a plataforma DataBricks para aqueles que desejam se aprofundar um pouco mais em Engenharia de Dados e ferramentas Big Data.

Rodrigo Dias é um homem branco de olhos verdes, cabelos castanhos, barba e bigode curtos e grisalhos. Está sentado e veste uma camiseta preta de tecido liso. Ao fundo, há um armário na cor branca, uma estreita estante com livros e uma cortina na cor verde.

Durante nossa jornada, aprenderemos a nos cadastrar na plataforma e ter uma visão geral de como trabalhar com ela. Como nosso foco é a plataforma de DataBricks, não desenvolveremos um projeto específico, mas trabalharemos com um conjunto de exemplos para ilustrar possíveis situações de trabalho e como lidar com elas através da plataforma.

Ao final do curso, teremos um desafio com as características semelhantes à de um projeto real, onde poderemos exercitar os conhecimentos aprendidos e desenvolver as habilidades como pessoa engenheira de dados.

Para melhor aproveitar este conteúdo, é interessante que você tenha conhecimentos básicos sobre SQL, Python e Spark.

No vídeo a seguir, já iniciaremos nossa prática realizando o cadastro na plataforma. Até já!

Iniciando com o Databricks - Criando conta no Databricks

Para iniciar nosso curso, precisamos acessar a plataforma do DataBricks. É o que faremos agora!

No navegador, acesse https://www.databricks.com/try-databricks, que corresponde à página de cadastro na versão "Try", de 14 dias. Trata-se de uma versão na qual conseguimos acessar todos os recursos da plataforma durante 14 dias para testá-la. Embora não seja exatamente o nosso objetivo, precisamos criar nossa conta por aqui também.

No lado direito da página, há um formulário com as informações que precisam ser preenchidas, como nome, último nome, empresa, e-mail da empresa ou corporativo - que precisa ser válido, tendo em vista que receberemos um e-mail de confirmação - etc. Após preenchê-las, basta clicar no botão "Get Started For Free", que deve estar logo abaixo.

Após clicá-lo, somos direcionados para uma outra janela onde nos são dadas as seguintes opções de provedor de nuvem: AWS - Amazon Web Services, Microsoft Azure e Google Cloud Platform, então é necessário ter uma conta em um deles. Aqui, não abordaremos esta etapa, mas ela seria necessária se fôssemos, de fato, nos cadastrar na versão "Try". Isso porque o DataBricks monta a estrutura necessária para o projeto funcionar diretamente nos recursos disponibilizados pelo seu provedor de nuvem.

Todos esses provedores também possuem essa versão de teste, mas exigem que seja incluído um cartão de crédito no cadastro. Portanto, não faremos isso neste curso, pois usaremos a versão Community Edition do DataBricks, que é uma versão gratuita da plataforma, com funcionalidades um pouco mais restritas, que nos garante acesso à um cluster de 15GB, um gerenciador básico de cluster e um ambiente para trabalharmos com notebooks - tudo o que precisamos para conhecer a ferramenta e estudar as formas de trabalhar com dados. Os recursos citados serão hospedados no AWS sem necessidade de cadastro e, claro, de cartão de crédito.

Ao final desta janela de provedores, há um link escrito "Get started with Community Edition", então clicaremos nele, que deve nos redirecionar à um puzzle simples. Basta resolvê-lo que seremos direcionados à outra janela solicitando que verifiquemos nosso e-mail.

Nele, deve constar uma mensagem e um link de nome "this link" que clicamos para verificar nosso e-mail. Seremos redirecionados à uma página para resetar a senha (password) - que nem chegamos a criar, então basta digitar a senha de sua preferência nos dois campos indicados e clicar em "Reset password". Por fim, chegaremos à janela na qual trabalharemos: a janela inicial (workspace) da plataforma do DataBricks.

Na lateral esquerda, há uma coluna escura que se expande ao passarmos o mouse exibindo algumas opções. No final desta barra lateral, há a opção "Menu options". Clicando nela, temos mais 3 opções "Auto", "Expand" e "Collapse". Optaremos pela opção "Expand" para que esta barra permaneça expandida.

Nesta versão Community, trabalhamos com duas performances que aparecem na faixa de seleção "Data Science e Engineering" abaixo da logo. Clicando nela, temos acesso às duas opções: "Data Science e Engineering", previamente selecionada, e "Machine Learning". Ao clicarmos em "Machine Learning", note que o workspace muda, assim como as opções da barra lateral esquerda.

Neste curso, usaremos "Data Science e Engineering", então voltaremos a selecioná-la. Note que neste workspace há opções com as quais trabalharemos, como notebook, autoML, importação de dados etc.

A seguir, vamos explorar os menus e suas funcionalidades, além das configurações que precisamos para que o curso funcione corretamente.

Utilizando o Databricks - Databricks UI

Nota: Houve atualizações na interface da ferramenta DataBricks. Anteriormente, a edição Community incluía seções distintas para "Data Science and Engineering" e "Machine Learning". No entanto, agora, apresenta somente a área de "Machine Learning". A atualização não impedirá de você prosseguir com a aula normalmente.

Anteriormente, aprendemos a nos cadastrar na versão Community do DataBricks. Agora, passaremos pelas opções da ferramenta entendendo a funcionalidade de cada uma.

Antes, vamos nos ater à uma situação que talvez aconteça com você. O e-mail do instrutor era "aula.databricks@gmail.com", mas na mensagem de confirmação foi retornada a inscrição com o e-mail "auladatabricks@gmail.com" sem o ponto (.). Então é preciso estar atento ao e-mail informado como endereço de inscrição, pois o próprio DataBricks pode alterá-lo. Para isso, na mensagem de confirmação que você receberá, deve conter o trecho "Your sign-in email:" seguido do endereço de e-mail que você deve usar para acessar a plataforma.

No navegador, acessaremos o endereço https://community.cloud.databricks.com/login.html e faremos o login, que deve nos direcionar ao workspace que vimos na aula anterior. Como já vimos, temos duas opções de personas e focaremos em "Data Science e Engineering", então a manteremos selecionada.

Vamos explorar a barra lateral! Abaixo da seleção da persona, temos o botão "Create". Clicando nele, um pequeno menu se expande com as opções "Notebook", "Table" e "Cluster". Em seguida, o botão "Workspace" nos leva, também, a um pequeno menu no qual ficarão salvos nossos arquivos e notebooks; em "Recents" constarão os arquivos acessados recentementes; "Search" nos permite fazer buscas no ambiente de trabalho e em "Data" ficarão nossas tabelas e dados.

No botão "Compute" teremos como gerenciar nossos clusters e, note que, ao invés de expandir um pequeno menu, ele nos mostra uma janela diferente. A opção "Workflows" é para trabalharmos com orquestração, o que não é o objetivo deste curso. Em seguida, temos o botão "Help" com algumas opções de ajuda, entre elas "Documentation", que nos redireciona à documentação do DataBricks, e "Databricks Status", onde vemos o status dos serviços do DataBricks.

Mais abaixo, em "Settings", teremos 3 opções:

  1. "User Settings" - nos mostra uma nova janela com uma aba de opções para redefinir senha, fazer integrações com o Git (algo que só podemos realizar com a versão premium), configurações da aparência do notebook, notificações de e-mail e opções de linguagem (a tradução da ferramenta para o Português não é tão boa, então é interessante mantermos em Inglês);
  2. "Admin Console" - nos mostra uma janela com 3 abas: 1) com os usuários que estão acessando o projeto; 2) onde podemos criar scripts de inicialização, e 3) configurações gerais (com a qual trabalharemos brevemente adiante);
  3. "Delete Account" - para deletar conta.

O penúltimo botão é o usuário, onde podemos fazer o logout para sair da ferramenta e, por fim, "Menu options" que vimos anteriormente e serve para definirmos a maneira como a barra lateral é mostrada, sendo:

Para voltarmos ao workspace inicial, basta clicarmos no logo "databricks" que fica no topo da barra lateral.

Sobre o curso Databricks: conhecendo a ferramenta

O curso Databricks: conhecendo a ferramenta possui 150 minutos de vídeos, em um total de 55 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Engenharia de Dados acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas