Alura > Cursos de Data Science > Cursos de SQL e Banco de Dados > Conteúdos de SQL e Banco de Dados > Primeiras aulas do curso Google BigQuery: navegando na nuvem

Google BigQuery: navegando na nuvem

Preparando o ambiente - Apresentação

Olá, tudo bem? Sou o Victorino Villa e serei seu instrutor nesse curso inicial sobre Google BigQuery: Navegando na Nuvem.

Audiodescrição: Victorino é uma pessoa de pele clara e olhos escuros. Seus cabelos são curtos, lisos e grisalhos. Usa barba e bigode e usa uma camiseta preta. À sua frente, um microfone de mesa. Ao fundo, uma parede lisa com iluminação degradê do azul-claro para o azul-escuro.

Pré-requisitos

Para esse curso, é importante que você esteja familiarizado com a linguagem SQL. Podendo ser SQL de qualquer banco de dados relacional, como Oracle, MySQL, SQL Server, Postgres e outros que utilizem o que chamamos de ANSI SQL. Isso porque exploraremos o banco de dados BigQuery do Google, que também usa a linguagem SQL para extrair dados.

O que aprenderemos

Neste curso, daremos ênfase à configuração do BigQuery e aprenderemos comandos especiais de banco de dados que diferenciam o BigQuery do SQL padrão. Claro que algumas coisas serão iguais, mas daremos ênfase a estruturas semelhantes e diferentes suportadas pelo BigQuery.

Tudo isso será feito a partir de uma base de dados de uma empresa chamada Belleza Verde. Vamos explorar os dados dessa empresa com o objetivo final de medir a performance de vendas dos vendedores da Belleza Verde ao longo de 3 anos de dados.

Não se preocupe, pois fará parte do curso a criação e carregamento dessa base real.

Importante ressaltar que é necessário que você já tenha o ambiente de BigQuery configurado na sua máquina. Antes deste curso, você encontrará nessa formação, um artigo sobre esse assunto. É fundamental que você o leia e siga todos os passos para configurar seu ambiente.

Nesse curso, faremos uma imersão no Google BigQuery, uma plataforma de ponta para análise de grandes volumes de dados. Vamos mesclar um pouco de teoria, mostrando as características do BigQuery, com um pouco de prática nos comandos especiais que outros bancos de dados relacionais não tratam, como, por exemplo, Subqueries, Arrays, Structures, Unnests, entre outros.

Mesmo sendo um curso iniciante, ele é muito relevante. Você conseguirá configurar um BigQuery e aprender a extrair consultas dessas bases de dados. Você poderá se tornar um especialista em análise de dados.

Nosso objetivo é atender suas expectativas de crescimento profissional na área de análise de dados. Inclusive, na última aula do curso, conheceremos um caso prático do cálculo de performance de vendas por vendedores da empresa Belleza Verde, que poderá servir de modelo para que você coloque em prática na empresa em que trabalha ou presta serviços.

Esperamos que você goste deste curso. Um forte abraço e até o próximo vídeo!

Preparando o ambiente - Entendendo a interface de trabalho

Nesse vídeo, conheceremos a interface de trabalho chamada Big QueryStudio. É nela que faremos as consultas ao banco de dados do Big Query.

Antes de iniciarmos, é essencial que você tenha configurado seu ambiente de BigQuery. A configuração desse ambiente está no artigo BigQuery: configurando o ambiente de trabalho. Siga todos os passos e quando estiver com o BigQuery volte para esse vídeo.

Além do BigQuery configurado também já criamos o usuário Google. Na barra de busca do navegador, escrevemos "Google console" e pressionamos "Enter". Feito isso, clicamos no primeiro link que aparece.

Acessando o Google Cloud

Somos direcionados para uma página de login, onde inserimos nosso e-mail e senha. Feito isso, acessamos a interface principal do Google Cloud.

Lembrando que, é importante que, na barra localizada na parte superior esquerda da tela, você esteja visualizando o projeto do Google BigQuery criado quando você configurou seu ambiente. Caso você não veja esse projeto, clique nesse botão indicado por uma seta para baixo e depois selecione o projeto.

Feito isso, na lateral superior esquerda, clicamos no menu hambúrguer e depois em "BigQuery > BigQuery Studio". Somos encaminhados para outra página, é nela que vamos faremos todas as nossas consultas.

No menu lateral esquerdo, encontramos várias ações. No fim do menu, se clicarmos no ícone de seta, podemos deixá-lo fixo ou minimizado. Nesse caso, deixamos minimizado.

Quando fazemos isso, na lateral esquerda, encontramos a área chamada Explorer na qual veremos o conjunto de dados. Esses são um grupo de dados, como se fosse um servidor, no qual teríamos vários bancos de dados que podemos acessar. O servidor que está selecionado, ou seja, o conjunto de dados, é inicialmente o nosso projeto curso-big-query-12339. Se clicarmos nele, abaixo não temos nada selecionado ou criado. Isso significa que esse é um projeto do Google BigQuery vazio.

No centro da tela, temos a área em que trabalharemos. Na parte superior, clicando na aba chamada "Sem título", encontramos a área em que digitaremos nossas consultas. Faremos um pequeno exemplo.

Não temos nenhum dado disponível, afinal, o projeto está vazio. Para esse teste, precisamos, então, adicionar uma base pública do BigQuery. Essas são uma série de conjuntos de dados que já existem na nuvem Google e que podemos acessar. Porém, para isso, precisamos adicionar esse projeto ao nosso projeto que estamos trabalhando.

Este projeto público se chama BigQuery Data Public, que possui uma série de dados e bancos já prontos. Na nossa conexão, não temos a base pública adicionada, então faremos isso.

Adicionando a base publica

Na lateral esquerda, ao lado do Explorer, clicamos no botão "Adicionar". Na janela que abre, encontramos diversas coisas que podemos adicionar ao projeto. Procuramos pela opção "Conjunto de dados públicos" e clicamos.

Assim, abre uma janela com uma série de dados públicos que podem ser acessados. Na barra de pesquisa, escrevemos "new york bike trips" e pressionamos "Enter". Feito isso aparece a base de dados NYC Citi Bike Trips que mostra uma estatística de bicicletas de aluguel retiradas em um posto e depois devolvidas em outro.

Esse é um conjunto de dados público que adicionaremos ao nosso projeto. Para isso, clicamos nele. Na nova janela clicamos no botão "Ver conjunto de dados". Assim, abre outra página na qual, na lateral esquerda, visualizamos o projeto original e abaixo o projeto BigQuery Public Data. Se procurarmos nessa lista, na letra N, encontramos o new_york_citibike.

Fazendo uma consulta

Para fazermos uma consulta nesse banco de dados, no centro superior da tela, clicamos na aba "Sem titulo". No centro da tela, digitamos SELECT gender, tripduration, ou seja, dois campos. Na linha abaixo escrevemos FROM.

Feito isso, como nos referimos a uma tabela no Big Query? Temos que montar uma estrutura, ela começa primeiro com o nome do conjunto de dados. Para isso, o projeto bigquery-public-data, envolvido entre dois acentos graves.

Na mesma linha, adicionamos o ponto . e passamos o nome da base de dados new_york_citibike seguido de . e o nome da tabela citibike_trips.

Se for preciso, você pode consultar qual tabela irá usar no Explorer.

Na linha seguinte, faremos um filtro passando WHERE tripduration is not null, ou seja, não queremos trazer as viagens cujo valor ao tempo de duração esteja vazio. Por fim, na linha seguinte escrevemos LIMIT 10, pois só queremos visualizar os dez primeiros registros.

SELECT gender, tripduration
FROM bigquery-public-data.new_york_citibike.citibike_trips
WHERE tripduration is not null
LIMIT 10;

Quando digitamos a consulta no BigQuery, na lateral superior direita, logo acima do campo de código, notamos um símbolo verde de "Check", indicando que a consulta é válida. Isso significa que não só a sintaxe da consulta, mas também o acesso e a permissão à base de dados também estão permitidos.

Na mesma área, também podemos visualizar a quantidade de bytes que serão processados. Esse é um número muito importante, você descobrirá ao longo do curso o motivo.

Feito tudo isso, no centro superior da tela, clicamos no botão "Executar". Assim, visualizamos a seguinte tabela:

Linhagendertripduration
1female144
2unknown1894
3male949
4unknown660
5unknown262
6unknown127
7unknown3823
8unknown567
9unknown2597

É assim que trabalhamos com o BigQuery. Fazemos uma consulta na qual sempre a referência do nome da tabela é o conjunto de dados, o banco e a tabela.

Te esperamos no próximo vídeo!

Preparando o ambiente - Estudo de caso

Nesse curso, nosso estudo de caso será a empresa Belleza Verde, que atua no mercado de cosméticos e produtos de beleza.

Conhecendo o estudo de caso

A empresa vende os produtos diretamente aos clientes, sejam pessoas físicas ou jurídicas, por meio de um modelo de venda de porta em porta, por meio de pessoas vendedoras. A empresa mantém um banco de dados detalhado sobre suas vendas. Nele, ela registra as informações sobre cada venda efetuada.

Utilizaremos o banco de dados de vendas da Belleza Verde para demonstrar como realizar consultas e análises usando o BigQuery. Para isso, precisamos conhecer a estrutura de tabelas desse banco de dados.

Conhecendo a estrutura de tabelas

Na tabela de produtos temos os campos:

Depois passamos à tabela das pessoas fornecedoras na qual temos os fornecedores das principais matérias-primas. Os campos são:

A tabela seguinte é a de clientes que possui:

Na tabela de matérias-primas, que mostra a principal matéria-prima usada para manufaturar os produtos fabricados pela Belleza Verde. Nessa tabela temos:

A tabela seguinte é a do banco de dados, que representa as pessoas vendedoras que efetuam as vendas. Os campos são:

Temos a tabela de vendas. Para cada venda, temos as seguintes informações:

Para completar o banco de dados, temos a tabela de metas estabelecidas pelas pessoas vendedoras no início do ano e usadas para a medição de performance dessas vendas. Os campos são os abaixo:

Na imagem abaixo, podemos observar como essas tabelas se relacionam.

Diagrama de fluxo de processos de negócios com sete retângulos verdes conectados por setas, indicando a relação entre diferentes componentes como Vendedores, Metas, Matérias, Clientes, Produtos, Vendas e Fornecedores.

A tabela de pessoas vendedoras está associada a clientes e à tabela de metas. A tabela de clientes está ligada diretamente à tabela de vendas. Temos a tabela das pessoas fornecedoras, que tem uma ligação com a tabela de matérias-primas. Já a tabela de matérias-primas tem uma ligação com a tabela de produtos e a tabela de produtos se liga com a tabela de metas e com a tabela de vendas.

Este é o nosso estudo de caso prático que utilizaremos para treinar e fazer consultas com o BigQuery. Até o próximo vídeo!

Sobre o curso Google BigQuery: navegando na nuvem

O curso Google BigQuery: navegando na nuvem possui 234 minutos de vídeos, em um total de 66 atividades. Gostou? Conheça nossos outros cursos de SQL e Banco de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda SQL e Banco de Dados acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas