Alura > Cursos de Data Science > Cursos de Data Science > Conteúdos de Data Science > Primeiras aulas do curso Data Science para Marketing: analisando e explorando dados

Data Science para Marketing: analisando e explorando dados

Conhecendo os dados - Apresentação

Boas-vindas ao curso de Data Science para Marketing! Meu nome é Daniel Siqueira e serei seu instrutor.

Audiodescrição: Daniel é uma pessoa careca, usa óculos de armação retangular preta, e veste camiseta branca. Ao fundo, há uma iluminação verde e azul.

Neste curso, começaremos do zero. Vamos aprender como abrir um notebook, o que é um notebook, e como usá-lo para trabalhar com a linguagem Python.

O que vamos aprender?

Vamos aprender a escrever nossos primeiros códigos, realizar nossas primeiras contas e cálculos usando Python!

Também aprenderemos a importar arquivos .csv, pois trabalharemos com um arquivo sobre campanhas de marketing, e utilizaremos uma das principais ferramentas do Python, que é o Pandas, para acessar esse arquivo CSV, analisá-lo e transformá-lo em uma tabela.

Vamos explorar o formato de tabela, com linhas e colunas, e manipular esses dados.

Aprenderemos a analisar o tamanho e o formato, segmentar colunas, criar colunas na tabela, examinar os valores, identificar os valores únicos e contar esses valores. Também criaremos novas colunas na tabela e geraremos gráficos. Inicialmente, os gráficos podem não ser os melhores, mas evoluiremos na construção deles.

Vamos aprender o que é um histograma, como trabalhar com distribuição e como criar um histograma usando a linguagem Python.

Faremos análise descritiva e estatísticas descritivas, observando a média, o desvio padrão, o que é o desvio padrão, a média, a mediana, os valores mínimos, máximos e os quartis. Também analisaremos esses dados em gráficos como o BoxPlot.

Aprenderemos a fazer consultas, segmentar nossos dados e realizar análises dessas consultas.

Também geraremos vários tipos de gráficos, como o gráfico de pizza, e avaliaremos se é o melhor tipo de gráfico ou não. Aprenderemos a estilizar nossos gráficos, ordenar as colunas, aplicar cores desejadas nas colunas e mostrar os resultados em porcentagem.

Além disso, vamos trabalhar com ROI (Retorno sobre Investimento). Embora não tenhamos ROI na nossa base de dados, criaremos essa coluna por meio de cálculos e faremos análises sobre o ROI. Compararemos, por exemplo, onde o ROI foi mais eficiente: no Google Ads, Meta Ads ou no canal de e-mail. Tudo isso será analisado com cálculos e gráficos.

Estamos muito animados para começar este projeto e aprender uma série de conceitos importantes que serão muito úteis e destacarão suas habilidades. Vamos começar?

Conhecendo os dados - Primeiro contato com Python

Para analisar dados, utilizamos a linguagem Python, conhecida por sua eficiência em análise e exploração de dados.

Onde vamos escrever e armazenar o código Python?

Entre as várias possibilidades, utilizaremos o notebook ("caderno", em português), que permite anotações, inclusão de texto, imagens e código Python.

Acesse o Google Colaboratory

Usaremos o Google Colab, o acesso é online. Para usá-lo é necessário ter acesso à internet e uma conta Gmail.

Após acessar o Collab, clicamos em "novo notebook" no canto inferior esquerdo para iniciar um novo caderno.

Podemos nomeá-lo, por exemplo, como "Data Science para Marketing".

O notebook permite trabalhar com células de código e texto. O Collab conecta-se a um servidor do Google, disponibilizando um computador remoto para execução do código.

Podemos clicar em "Conectar" para ele fazer a conexão com o servidor do Google. Ao conectar, vai exibir informações de RAM e Disco.

No Python, podemos realizar cálculos diretamente no notebook. Por exemplo, ao inserir 2 + 2 e executar a célula, obtemos o resultado 4.

2 + 2

4

Para executar as células, podemos clicar no símbolo de play ou pressionar o atalho "Shift + Enter"

Para inserir uma nova célula, posicionamos o mouse abaixo do resultado, com opções de adicionar código ou texto.

Ao inserir 3 * 4 (asterisco representa multiplicação), o resultado é 12. Divisões, como 120 / 6, também são possíveis.

Além de números, podemos trabalhar com textos, chamados de strings em Python.

Textos devem estar entre aspas para serem reconhecidos.

Variáveis

Podemos armazenar textos e números em variáveis, facilitando a automação de processos. Por exemplo, nome = "Daniel" armazena o texto "Daniel" na variável nome. O uso de variáveis permite que o código seja menos verboso e mais eficiente.

nome = "Daniel"

Para imprimir o conteúdo de uma variável, usamos a função print(). Por exemplo, print(nome) retorna "Daniel".

print(nome)

Daniel

Alterando o valor da variável nome para "Dani" e rodando novamente a função print, o resultado atualizado é exibido.

Variáveis são úteis em automação, como no envio de e-mails automáticos. Armazenamos informações como formacao = "Marketing". É uma boa prática não usar acentos nem caracteres especiais no nome das variáveis.

formacao = "Marketing"

Podemos inserir também curso = "Data Science para Marketing".

curso = "Data Science para Marketing"

Para automatizar um e-mail, em vez de escrever o nome de cada pessoa, seu curso e formação, podemos usar variáveis para automatizar. Por exemplo:

print(f"Olá, {nome}! Notamos que você é formado em {formacao}. Bem vindo(a) ao curso de {curso}.")

O f antes das aspas em indica que a string é uma f-string ou formatted string. As f-strings são uma maneira de incorporar expressões Python diretamente em strings, permitindo que você insira variáveis ou mesmo expressões dentro de uma string de forma mais direta e legível.

Este código retornará o seguinte texto:

"Olá, Dani. Notamos que você é formado em Marketing. Bem-vindo(a) ao curso de Data Science para Marketing."

Conclusão

Já entendemos como vamos acessar o notebook e trabalhar com conceitos de variáveis, funções e células. Estamos prontos para começar a analisar dados de campanhas geradas no Brasil.

No próximo vídeo, iniciaremos nosso projeto de fato!

Conhecendo os dados - Conhecendo os dados e o Pandas

Agora que já estamos com o nosso notebook pronto, vamos começar a analisar os dados.

Recebemos esses dados de campanhas no formato CSV. O arquivo foi disponibilizado na atividade "Preparando o ambiente”.

Fizemos o download e a questão agora é como colocar esse arquivo dentro do nosso notebook. Vamos aprender como fazer isso!

Para carregar um arquivo, uma das opções é fazer um upload diretamente para o notebook do Colab.

No canto esquerdo, há um símbolo de pasta ("Arquivos"). Ao clicar nele, abre-se uma aba de arquivos, onde podemos armazenar nossos arquivos para trabalhar.

Clicamos na primeira opção, que permite fazer o upload do arquivo. Após clicar, vamos encontrar o arquivo de campanha em nosso computador e clicar nele.

Surge um aviso informando que os arquivos desse ambiente de execução serão excluídos quando ele for encerrado.

Aviso

Confira se os arquivos foram salvos em outro lugar. Os arquivos deste ambiente de execução vão ser excluídos quando ele for encerrado.

Portanto, se o ambiente reiniciar ou desligar, será necessário fazer o upload novamente. Devemos estar cientes disso.

Após confirmar, percebemos que o arquivo campanha.csv já está carregado e disponível para trabalho no Google Colab.

Agora, vamos criar uma nova célula de texto.

Nesta célula, podemos inserir texto, imagens e personalizar o notebook. Incentivamos a personalização própria. Ao inserir um # e um espaço, o notebook entende como um título. Pois ele segue a linguagem Markdown.

Vamos inserir o título "# Analisando o Arquivo de Campanha" e executamos a célula com o atalho "Shift + Enter".

Pandas

Para carregar o arquivo, utilizamos a biblioteca Pandas, uma ferramenta poderosa do Python para carregamento e análise de dados. Ela transforma os dados em uma tabela chamada DataFrame, permitindo visualização e manipulação. Importamos a biblioteca com:

import pandas as pd

Damos um apelido para a biblioteca para em vez de escrever o nome dela repetidas vezes, escrevermos essa abreviação. No caso, para "pandas" usaremos "pd".

Após a importação, a biblioteca está disponível para uso. Para leitura dos dados, utilizamos o Pandas, chamado como pd, e a função read_csv(). Passaremos o nome do arquivo que queremos utilizar como parâmetro:

Para copiar o caminho do arquivo no Google Colab:

  1. Encontre o arquivo no painel lateral de arquivos.
  2. Clique com o botão direito no arquivo desejado e selecione "Copy path" (Copiar caminho). Isso copiará o caminho completo do arquivo para a área de transferência.
pd.read_csv("caminho_do_arquivo_campanha.csv")

Ao executarmos esta célula, esse arquivo será carregado.

Em seguida, vamos fazer o que é considerado uma boa prática no Google Colab. Vamos guardar a leitura desse arquivo dentro de uma variável.

campanha = pd.read_csv("caminho_do_arquivo_campanha.csv")

Armazenamos a leitura na variável campanha. Ao executar a célula, o arquivo é carregado. Para visualizar a tabela, chamamos a variável campanha:

campanha

Os dados são carregados no formato de tabela, ou DataFrame, com 50 mil linhas e 8 colunas.

Para visualizar apenas algumas linhas, utilizamos a função head, que traz as 5 primeiras linhas por padrão:

campanha.head()

Aqui está a tabela em formato Markdown:

Id_campanhaimpressoescliquescanalcustoreceitaestadopais
11524319462Email1325832309MGBrasil
1396883218PPC1639116568BABrasil
11045064756Google Ads618919029ALBrasil
1807683566Google Ads52150PIBrasil
1549323645Google Ads167678825RJBrasil

Com isso, podemos fazer uma análise inicial dos dados, que incluem as colunas de ID da campanha, impressões, cliques, canal, custo, receita, estado e país (Brasil).

Para saber o tamanho do DataFrame, podemos utilizar o método shape:

campanha.shape

(50000, 8)

O shape retorna o número de linhas e colunas. A informação retornada indica que são 50 mil linhas por 8 colunas.

Para analisar uma coluna específica, como "canal", podemos fazer uma segmentação do DataFrame usando o colchetes:

campanha['canal']

Com o código acima, essa operação retorna uma Series, que é uma única coluna do DataFrame.

Para saber os valores únicos da coluna "canal", podemos utilizar a função unique:

campanha['canal'].unique()

array(['Email', 'PPC', 'Google Ads', 'Meta Ads', 'Social Media'], dtype=object)

Foi retornado um array (lista) com os valores únicos, que são: e-mail, PPC, Google Ads, Meta Ads e Social Media. Então, foram esses 5 canais que foram utilizados em todas as campanhas.

Estamos começando a aprofundar nossa análise!

Vejamos outras questões para descobrirmos em nossos dados.

E se quisermos saber quantas campanhas foram feitas para cada canal?

Para isso, precisamos fazer uma contagem de valores por canais, utilizamos value_counts():

campanha['canal'].value_counts()

Aqui está a tabela em formato Markdown:

canal
Google Ads25146
Meta Ads15009
Social Media4874
PPC2526
Email2445

Isso fornece uma contagem de valores por canal. Observamos que a maioria das ações foram feitas no Google Ads, seguidas por Meta Ads.

Conclusão

Viu só o poder do Pandas?

O Pandas já nos permite realizar análises iniciais, mas queremos gerar visualizações para aprofundar ainda mais nas análises dos dados. No próximo vídeo, criaremos nossos primeiros gráficos!

Sobre o curso Data Science para Marketing: analisando e explorando dados

O curso Data Science para Marketing: analisando e explorando dados possui 109 minutos de vídeos, em um total de 53 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Data Science acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas