Entre para a LISTA VIP da Black Friday

00

DIAS

00

HORAS

00

MIN

00

SEG

Clique para saber mais
Alura > Cursos de Data Science > Cursos de Machine Learning > Conteúdos de Machine Learning > Primeiras aulas do curso Data Analytics: Machine Learning com Google Cloud Platform

Data Analytics: Machine Learning com Google Cloud Platform

Preparando o ambiente - Introdução

Olá, seja bem-vindo ao segundo curso da série Machine Learning no Marketing Digital, meu nome é Júlio e eu serei o seu instrutor. Nesse curso você vai aprender técnicas avançadas para conseguir prever o comportamento de um usuário no nosso site.

Assim como no primeiro curso, você vai continuar utilizando a base de dados da Google Merchandise Store, só que dessa vez vai utilizar a base de dados diretamente onde o Google disponibiliza, dentro do Google BigQuery. O Google BigQuery é a ferramenta de DataWare House do Google.

E o Google disponibiliza ambiente para trabalhar com base de dados muito grandes e onde os dados da Google Merchandise Store vem dentro de um data set aberto para quem quer utilizar. No lugar de usar csv que tinha amostra das informações, vamos conectar diretamente no BigQuery e pegar as informações lá.

Como o BigQuery está dentro da Google Cloud Platform você vai aprender a utilizar Google Cloud Platform para modelagem. Então você vai fazer a conta no Google Cloud Platform vai conectar no BigQuery e quando for fazer a modelagem sendo que agora tem um volume de dados maior, você vai aprender a utilizar o Datalab para isso.

Datalab é a ferramenta de notebook do Google Cloud, com ele você vai conseguir uma máquina mais potente por trás do nosso notebook para trabalhar com a nossa base de dados muito grande. Nesse curso, além de técnicas de machine learning você vai aprender a começar a utilizar o Google Cloud para modelagem.

Quando falar sobre técnicas de machine learning vamos aprender algumas coisas novas, primeiro você vai colocar o notebook diretamente com o BigQuery através do Python.

Sem ter que fazer nenhuma conexão externa para isso, vai de dentro do notebook chamar as informações que estão dentro do BigQuery, quando chegarmos na parte de preparação dos dados vai trabalhar com a coluna hits; que foi uma coluna que ficou de fora no nosso primeiro curso.

Essa coluna tem todas as informações sobre as iterações do usuário com o site e tem muita coisa rica para tentar melhorar nosso modelo, além de várias outras técnicas que você vai aprender também tem a preparação de dados, como feito no primeiro curso.

Uma coisa interessante que faremos é mudar a pergunta do negócio e não só tentar prever quanto que o usuário vai gastar, mas ver como que o nosso modelo se comporta quando tenta prever se o usuário vai gastar ou não ao invés de quanto ele vai gastar. No final você vai aprender uma nova técnica que vai ser o XGBoost e vai ver se o nosso modelo melhora com essa técnica de gradient boosting, diferente do que você vinha utilizando.

Lembrando, se você também não trabalha no marketing digital, esse curso estará recheado de ferramentas que você pode usar em diversos outros cases.

Esse é o segundo curso da série, então aconselho você a fazer o primeiro curso e estar com os requisitos de Python para melhor aproveitar o curso. Temos bastante coisa para ver, o material está muito legal, então vamos para o curso!

Preparando o ambiente - Cadastrando no Google Cloud

Agora vamos configurar nossa conta do Google Cloud, para isso eu vou acessar o console.cloud.google.com, e essa a tela inicial do Google Cloud, nela tem todas as ferramentas que Google disponibiliza por meio dessa plataforma.

Isso se faz por ferramentas de computação, ferramentas de armazenamento, ferramentas de rede, Big Data, inteligência artificial e assim por diante. Para começarmos a utilizar essas ferramentas, vamos precisar logar com e-mail Gmail e você pode escolher o seu e-mail para logar.

Vou colocar a minha senha e pronto estou logado dentro do Google Cloud, vocês notaram que loguei dentro do Google e começo a navegar dentro da ferramenta, sem ter de pagar nada.

Então, fazer esse primeiro login e até alguns recursos vão ser gratuitos dentro da plataforma do Google Cloud, outros recursos não serão gratuitos, mas tem um porém, Google dá U$D300 gratuitos quando você ativa a avaliação gratuita.

Então você vai clicar aqui em ativar avaliação gratuita para receber esses 300 dólares e fazer algumas coisas a mais com esses créditos que você vai receber. Vou clicar em ativar e eu vou seguir os passos para ativar esse faturamento, concordar e continuar, vou selecionar que tipo de pessoa eu sou, uma pessoa física.

Vou colocar o meu CPF, data de nascimento, nome, linha, endereço e assim por diante, vou preencher essas informações, no final eu tenho que colocar o meu cartão, você não terá nenhuma cobrança no seu cartão enquanto você tiver os 300 dólares.

Durante o curso vou ensinar também como você desativa o faturamento, como bloqueia o projeto para que você não tenha nenhuma cobrança indevida no seu cartão. Você terá de colocar o cartão para ativar o faturamento, mas enquanto você tiver os U$D300 ativos não terá nenhuma cobrança.

Vou pausar o vídeo, vou colocar as minhas informações, vou passar para o próximo passo. Já terminei de colocar as informações do meu cartão, voltei para minha tela aqui do console e agora eu posso verificar quanto que eu tenho de crédito na minha conta.

Todas as informações de faturamento estão disponíveis no menu esquerdo, faturamento, você pode acessar aqui e ver quanto de crédito que tem, o valor que você receber vai depender do valor da cotação do dólar no dia porque são 300 dólares que você recebe esse valor é convertido para reais.

Lembrando que também qualquer cobrança que você tiver do Google Cloud vai ser em reais, para evitar qualquer problema com cobranças no cartão que você não estava esperando é muito importante estar atento a essa parte, conta de faturamento.

Todos os projetos linkados essa conta de faturamento aparecem aqui, se por acaso você terminar esse curso no meio ou se você terminar esse curso e fizer outros e parar de mexer com a conta do Google Cloud é importante que você desative o faturamento.

Assim evita que se esses créditos acabem e as cobranças sejam feitas automaticamente no cartão cadastrado. Lembre-se de que se acabarem os créditos a cobrança é feita automaticamente no cartão.

Durante esse curso pode ficar tranquilo que você vai usar muito pouco e vai sobrar crédito, mas por via das dúvidas é melhor se você deixar o curso ou se você por acaso vier a fazer outros projetos ficar atento quanto você tem de crédito ainda.

Se os créditos estiverem acabando desative o faturamento ou melhor ainda excluam os projetos para evitar qualquer custo adicional. Estamos com a nossa conta cadastrada e nos próximos passos vamos cadastrar as ferramentas para desenvolver esse modelo, até lá!

Preparando o ambiente - Conhecendo o BigQuery

Olá, estamos com a nossa conta configurada, com os créditos ativados, vamos acessar o BigQuery. Para acessar alguma ferramenta dentro do Google Cloud você pode procurar ferramenta nessa barra lateral e o BigQuery está dentro de Big Data, pode clicar aqui ou nessa barra de pesquisa.

Então, posso pesquisar aqui BigQuery e a primeira opção que aparece, tem algumas outras opções que ele está relacionado, vou clicar nessa primeira opção. Essa é a “cara” do BigQuery ferramenta muito simples, como disse no começo do curso é só uma ferramenta de DW – DataWare House, ou então uma ferramenta de bancos de dados analíticos diferente de bancos de dados operacionais.

Vai servir muito bem para carregar grandes volumes de dados dentro e conseguir fazer querys, pesquisas e alguns cruzamentos; fazer alguns tipos de processamento nessas informações, mesmo que o volume de dados seja muito grande e no processamento muito poderoso.

O BigQuery é capaz de processar peta bytes de dados, tem custo bem baixo e você não tem de se preocupar com nada de infraestrutura. Um custo altamente abstrato para quem está utilizando e funciona muito bem para as necessidades de ciência de dados quando você simplesmente quer ter a sua base de dados disponível, quer rodar querys diferentes, quer fazer todo esse trabalho sem ter de se preocupar em como o banco de dados está funcionando.

Colocar o banco de dados de pé e assim por diante. Esse é o aspecto dele, é bem simples, se você clicar aqui, por exemplo, existem alguns conjuntos de dados públicos que estão disponíveis, clico neles e vocês podem ver uma quantidade enorme de bancos de dados públicos que estão dentro do BigQuery.

Você pode acessar, fazer querys, começar a fazer exploração, fazer modelo em cima dessas informações, tem muita coisa legal. A base que vamos usar dentro desse curso é a base do Google Analytics da Google Mershandising Store.

E ela está disponível dentro de um data set que vou acessar via querys, caso você não tenha muita experiência com SQL, vamos usá-lo poucas vezes nesse curso. Não vai ser nada muito complexo, apenas select bem simples, mas aconselho você caso tenha dúvidas, procure aqui dentro da Alura outros cursos de SQL para se aprofundar, que é muito legal saber para este tipo de trabalho de exploração.

Como SQL é bem simples, acredito que a grande maioria vai conseguir entender tudo que estou fazendo. Porque, por exemplo, para dar uma olhada na tabela que vamos usar eu vou fazer select * - que significa todas as colunas dessa tabela que eu vou chamar - e vou passar aqui o nome da tabela que estou acessando.

Em qual data set está e o nome da tabela; eu começo o nome da tabela com uma crase e essa tabela do Google Analytics está dentro de um data set do BigQuery que é bigquery-public-data.google_analytics_samples. Essa tabela está particionada - ela é dividida por dias.

Eu vou pedir para trazer todas as tabelas de sessões e eu passar as sessions e um asterisco no final. Então traz todas as sessões para mim, é simples, select*FROM data set, tabela, qual partição e vou colocar só um limite aqui, como essa tabela é muito grande, para começar a trazer somente cem linhas.

Posso executar essa query clicando em executar ou Control + enter, aqui do lado pode ver o tempo de processamento - quanto tempo está demorando para executar essa query solicitada. Demorou 6.8 segundos, processou 5.4 GB de dados e vai dar o resultado aqui embaixo.

Então se vocês lembrarem da tabela usada no primeiro curso vocês vão notar semelhanças, por exemplo, visitId, visitStartTime, date e assim por diante, todas aquelas informações que você tinha naquele csv que disponibilizei no primeiro curso, estão aqui. Há um volume muito grande de informações e vamos conseguir através do BigQuery acessar essas informações.

Mesmo no volume grande e o nosso próximo desafio vai ser preparar um notebook no Datalab para levar as informações que estão aqui no BigQuery para lá. E com query é bem simples.

Notem que você apenas digitou a query, executou e as nossas informações já estão na tela, sem ter de configurar nenhum tipo de ferramenta complexa. No próximo passo vamos configurar o Datalab para começar a nossa exploração. Até lá!

Sobre o curso Data Analytics: Machine Learning com Google Cloud Platform

O curso Data Analytics: Machine Learning com Google Cloud Platform possui 119 minutos de vídeos, em um total de 39 atividades. Gostou? Conheça nossos outros cursos de Machine Learning em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Machine Learning acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas