Google Colab: o que é, tutorial de como usar e criar códigos
Introdução
Nesse artigo vamos entender o que é o Google Colab, como ele funciona, como abrir arquivos externos e como escrever códigos e textos em markdown. Primeiro uma introdução como uma definição a cerca do tema e depois vamos ver como usá-lo colocando a "mão na massa".
O que é o Google Colaboratory?
O Google Colaboratory, carinhosamente chamado de Colab, é um serviço de nuvem gratuito hospedado pelo próprio Google para incentivar a pesquisa de Aprendizado de Máquina e Inteligência Artificial.
É uma ferramenta que permite que você misture código fonte (geralmente em python) e texto rico (geralmente em markdown) com imagens e o resultado desse código, uma técnica conhecida como: notebook (“caderno”, em português).
Tudo isso num ambiente colaborativo, que você pode compartilhar com seus colegas, permitindo que outros rodem seu código e até modifiquem criando suas próprias versões. Os notebooks foram fortemente inspirados nos notebooks do Jupyter e utilizam essa ferramenta por trás dos panos.
Ela trabalha em especial com a linguagem Python, mas com alguns ajustes é possível rodar código em R, Julia, Swift e outras linguagens de programação.
Semelhanças com Jupyter Notebook
Similar ao famoso jupyter notebook, o Colab é uma lista de células que podem conter textos explicativos ou códigos executáveis e suas respectivas saídas.
Tutorial: Como começar a usar o Colab
1. Acessando pela primeira vez
O primeira passo que precisamos fazer para usar o google Colab é acessar o seguinte endereço:
Logo seremos direcionados para um notebook chamado Welcome to Colaboratory:
2. Documentação e principais tópicos para começar
Esse notebook explica algumas características do Colab e mostra como dar os primeiros passos — recomendo a leitura. Dentre todas aquelas listadas, podemos resumir nas seguintes 3 principais características:
Pelo fato dele rodar em uma máquina do google, não precisamos realizar qualquer configuração;
O google disponibiliza gratuitamente acesso a GPU’s;
É simples de compartilhar, igual a qualquer arquivo contido no drive.
3. Google Colab Notebook: como criar um?
"Ok, já li e entendi o que é o Colaboratory, mas quero criar meu próprio notebook!"
Para fazer isso, precisamos clicar em >File, na parte superior esquerda, logo em seguida em >New Notebook. Veja na figura abaixo:
Login numa conta Google
Feito esse processo, caso não esteja logado em uma conta google, o seguinte pop-up aparece:
Clique em OK para ser direcionado à tela de login do gmail. Caso não tenha uma conta gmail, clique em Create account e siga os passos para cadastro:
Feito, agora você tem acesso ao seu google colab! Vamos fazer alguns testes nesse notebook!
4. Seu primeiro código no Google Colab
Agora que está com o seu primeiro notebook aberto, quero explicar sobre os três pontos em destaques da seguinte figura:
01: Célula
Vamos começar pelo recorte 01, aqui temos o que chamamos de célula. Ela é o local onde você escreve códigos ou texto. Vamos começar com a célula de código, que você pode ir testando no seu notebook. Então para começar digite no local correspondente ao 01:
print(“Hello World”)
Para executar esse código temos algumas opções: você pode clicar no sinal de play que fica no início da célula ou pode usar o atalho SHIFT+ENTER — existem diversos outros atalhos para executar uma célula, você encontra detalhes no documento de Visão geral dos recursos do Colaboratory.
Um segundo exercício é aquele clássico, escreva "Hello World" e, repare que ao executar, é impresso logo abaixo.
Agora vamos tentar outro código, que tal realizarmos uma operação e armazenar esse valor em uma variável? Use o seu notebook para executar o seguinte código:
soma_dois_numeros = 1232 + 2314
Ao executar, diferente da célula anterior, nada é impresso. Isso ocorre porque a atribuição de variáveis não tem retorno em python. Outro ponto que você deve ter observado é que ao rodar a primeira célula, o tempo para executar foi mais longo, isso porque, ao rodar pela primeira vez, o colab precisa criar uma máquina nos servidores do google, então esse tempo extra é justamente para a criação desta máquina.
02: Adicionando novas células
Até o momento nós criamos apenas células de código, mas conforme falamos, os notebooks nos permitem mesclar essas células de código e textos em formato markdown. Na figura anterior temos o recorte 02, esses “botões” servem para adicionar novas células em seu notebook.
- +Code: adiciona células de código;
- +Text: adiciona as células nas quais você pode digitar texto com as configurações markdown.
Essa característica nos permite desenvolver explicações e relatórios nos próprios notebooks. Experimente aí no seu notebook, crie alguns textos em formato markdown!
03: A base de dados
Já sabemos como escrever códigos, o que será primordial ao realizar uma análise de dados. Também aprendemos que é possível escrever textos, o que nos ajuda a tecer conclusões e criar relatórios. Entretanto, para que o Colab se torne uma ferramenta funcional falta o principal elemento: a base de dados.
Temos várias formas de obter acesso a uma base de dados, entre elas utilizar alguma biblioteca que lê um arquivo direto de uma URI, por exemplo. Segue uma sugestão sobre como podemos ler o dataset MovieLeans salvo no github da Alura:
import pandas as pd
base_de_dados = pd.read_csv(“https://raw.githubusercontent.com/alura-cursos/formacao-data-science/master/movies.csv”)
Assim, temos o dataset salvo na variável base_de_dados
e podemos realizar a exploração dos dados.
A forma que apresentamos é útil quando temos os dados públicos, mas muitas vezes a base de dados está em nosso computador e não podemos deixá-la disponível na internet.
Como podemos fazer para enviar esses dados para o Colab?
No destaque 03, última figura, temos o ícone de uma pasta, clique nela. Veja na imagem abaixo que ao clicar, uma view é aberta, mostrando uma estrutura de diretórios:
Se você explorar as pastas, vai perceber que é muito similar à estrutura de um sistema operacional Linux.
Na parte superior da view temos algumas opções: se você clicar em input poderá optar por enviar um arquivo da sua máquina para o google. Desse modo, pode acessar a base de dados passando como parâmetro para a função pd.read()
o local do arquivo, por exemplo:
base_de_dados = pd.read_csv(“base_de_dados_que_você_subiu.csv”)
A desvantagem desse método é que ao fechar e acessar seu notebook em outro momento, você precisa realizar o input dos dados novamente, processo que pode ser demorado. Então, uma outra boa opção para guardar os dados é salvar em seu Google Drive e acessá-lo direto do notebook, para isso apenas clique em Mount Drive, que aparece na imagem anterior, ou mesmo, use a API do Google Drive, utilizando from google.colab import drive
e, por exemplo, drive.mount('/content/drive')
.
Para saber mais você pode ver o tópico do fórum da Alura sobre como salvar o projeto no Colab e acessar o Mount Drive.
Enfim, você pode facilmente compartilhar seu notebook com o botão 'compartilhar' na barra de ferramentas, ou ainda gravar uma cópia para você de outro colab, na opção 'Arquivo/Salvar.'
Conclusão
Vimos que usar o google colab torna nossa entrada na área de dados simples, afinal de contas não precisamos instalar nada, não precisamos realizar configurações e nem mesmo ter uma máquina poderosa. O google disponibiliza tudo isso pronto e com qualidade, é só acessar um notebook e começar a diversão!
Agora que você conhece as principais funcionalidades dos notebooks e sabe utilizar o colaboratory, que tal criar sua análise no colab e compartilhar com a gente nas redes sociais?
Gostou deste assunto e quer se aprofundar mais em ciência de dados? Veja alguns cursos que a Alura tem nesta área:
Para se manter informado sobre nossas novidades, siga a Alura nas redes sociais. Se quiser conhecer mais e acompanhar diversos assuntos de ciência de dados me siga no Twitter @tgcsantos, sempre estou compartilhando conteúdos da área.