Olá. Seja bem-vindo ao curso de machine learning no marketing digital. Meu nome é Júlio, eu serei seu instrutor. Aqui neste curso vamos aprender a prever quanto um usuário que entra em um site vai gastar. E o legal é que vamos utilizar dados reais para isso, da Google Merchandising Store. Essa é a loja de brindes do Google. Um e-commerce onde você pode entrar e comprar brindes com a marca personalizada deles.
Uma forma bem simples de pensarmos como podemos aplicar o que vamos aprender aqui é imaginar que você é capaz de antecipar quanto um usuário vai gastar. Você pode aplicar isso diretamente no seu marketing digital. Logo, você é capaz de antecipar o retorno de uma campanha e movimentar de forma mais rápida, melhorando a performance.
Além disso, você será capaz de identificar usuários que estão tendo uma má experiência no seu site e melhorar a experiência dele antes mesmo dele decidir não fazer a compra no seu site. Ou o contrário, identificar o que tem de diferente nos usuários que estão comprando.
Falando em diferenciar usuários, você vai conseguir separar cluster de usuários e criar estratégias diferentes para usuários diferentes. Mas caso no seu dia a dia o marketing digital não seja uma realidade, tudo que você aprender neste curso você vai poder aplicar em outros negócios, porque um grande trabalho que vamos ter vai ser trabalhar com uma base de dados.
Iremos utilizar muito o Python e técnicas de preparação e criação de variáveis. Tudo que você aprender aqui você vai poder aplicar em diversos outros desafios de negócio. Mesmo que você não tenha uma experiência no dia a dia, mesmo que marketing digital não faça parte da sua rotina, este curso vai te trazer novas técnicas, ferramentas para você conseguir preparar a base de dados e melhorar seus modelos de machine learning.
Iremos aprender a trabalhar com bases no formato JSON, que é bem comum em diversos tipos de aplicação da web. Além disso, vamos verificar alguns tipos de variáveis que temos disponíveis de comportamento digital e criar novas variáveis. Vamos passar um bom tempo trabalhando em cima da nossa base de dados, que é a realidade de um cientista de dados, que gasta muito tempo na preparação para deixar a base o melhor possível para o modelo.
No final deste curso, você vai sair com um modelo pronto para entrar no seu portfólio. Vamos para o curso que o material está muito legal.
Na última aula vimos que temos o site do Google Merchandising Store, e através do Google Analytics vamos captar as informações dos usuários que navegam nesse site. No caso da aula de hoje, já temos os dados extraídos e vamos explorar essa base para preparar para a modelagem.
Iremos trabalhar dentro do Jupyter notebook, com o Python 3. O primeiro passo vai ser importar a biblioteca pandas. Vamos chamá-la de pd. Depois, iremos trazer a base de dados, que está no mesmo diretório que este notebook. Vou utilizar o método read.csv.
Vemos já alguns tipos de informação, como o canal que o usuário usou, pesquisas orgânicas do Google, a data que o acesso ocorreu, informações de dispositivos, id do visitante, informações geográficas, entre outras. Para entender melhor essa base podemos dar uma olhada no tamanho dela. Ela tem 12.283 linhas e 12 colunas. Lembrando que é apenas uma amostra dos usuários que acessaram o site.
Como dissemos, cada linha dessa base de dados é uma seção, uma visita que o usuário fez. Podemos ter mais seções do que usuários. Para saber quantos usuários únicos temos, vou passar o método full visitor id dentro de uma função len. Tenho 9.966 usuários únicos.
Já demos uma olhada na nossa base de dados, vimos as primeiras linhas, sabemos o tamanho, quantas colunas, quantos usuários únicos, vamos dar uma olhada em como o pandas identificou as colunas do dataframe. Para isso, vamos usar a função dtypes.
A primeira coluna foi identificada como objeto. Podemos chamar de string. No caso da coluna date, ela foi identificada como inteiro. Isso pode ser um problema, porque não é um inteiro. Esses valores tem um significado a cada quantidade de caracteres. Caso queiramos extrair uma informação dessa coluna, precisaremos acessar os valores dela como uma string.
Vamos tentar separar o valor do ano. Seria do 0 ao 4. Vai dar um erro, porque não consigo fazer isso com valor inteiro. Vamos tentar passar a mesma variável data transformando numa string e iremos fazer a mesma execução. Agora consigo. Pode ser que isso seja importante lá na frente.
O full visitor id está sendo identificado como inteiro também. Se verificarmos, é um id, como o nome diz. Quando trabalhamos com ids e eles são identificados como inteiros temos um problema. Pode ser que esses ids tenham 0 na esquerda. Se identificarmos como inteiro, ele vai perder esse 0. Se ele é armazenado como string, mantenho o 0.
O totais é uma coluna que apesar do nome está com vários outros valores dentro dela. Vamos ter que extrair esses valores mais à frente. Visit id também está identificado como inteiro.
O visit start time é um time stamp. É uma conversão de segundos usada para calcular datas. Vamos ter que corrigir o data, o visit id e o full visitor id. Poderíamos simplesmente converter as informações que já lemos, mas como elas podem ter sido lidas e perdido o valor, é melhor lermos de novo passando as informações com o valor correto.
Conseguimos ler nossa base de dados e temos toda a base identificada com o formato de arquivos correto.
Durante nosso curso, vamos utilizar a Google Merchandising Store, a loja de brindes do Google. Escolhemos esse site porque os dados são abertos e eles recebem visitas do mundo inteiro todos os dias. Temos acesso a essas informações na conta do Google Analytics.
Podemos ver que é um site comum, com diversas categorias e você pode selecionar produtos. Basicamente, são brindes com a marca do Google. Você pode olhar o produto que você tem interesse, ver a descrição, valor, pedir e receber o produto.
Para este curso, já selecionamos uma base que veio do Google Analytics. Precisamos entender um pouco como essas informações são estruturadas. O Google Analytics é a ferramenta de web analytics do Google, talvez uma das principais usadas no mundo, em que você pode ver diversos tipos de métricas, informações sobre seu site e aplicativo.
Podemos ver quantos usuários acessaram o site, quantos são novos usuários, quantas seções o site tem, quantas páginas por seção, o tempo médio que os usuários gastam. Você tem filtros para saber o que aconteceu na última semana, no dia, pode selecionar o período.
Para este curso, já extraímos nossa base. Não é necessário ter o conhecimento para entrar no Google Analytics e baixar as informações que você precisa, mas é importante que você saiba como as informações são estruturadas e de onde elas vieram.
Para entender nossa base de dados e que tipo de informação temos lá, vamos ver um exemplo. Analisando o comportamento digital de um usuário que compra em e-commerce, vamos pegar o caso do nosso amigo João, que visitou um site de roupas. Podemos atribuir a ele um visitor id, que vai identificar o João dentre os outros usuários. O Google analytics faz isso para nós.
Também pode ser interessante armazenar quando ele começou a visita. Suponhamos que foi no dia 4 de fevereiro de 2018, às 7:33. Também podemos ver se é a primeira visita dele. Vamos supor que sim. Podemos ver o dispositivo que ele usou para acessar o site. O canal que ele utilizou. O tempo que ele gastou no site. E por fim, quanto ele gastou.
Trouxemos sete colunas com exemplos do que podemos trazer de informação quando um usuário acessa um site qualquer. Temos muitas coisas. Posso perguntar qual dispositivo gasta mais, os canais de acesso com maior gasto, quanto tempo o usuário leva para fazer uma compra. São algumas informações que podemos analisar.
Vamos imaginar que o João foi impactado por uma mídia e acessou o site novamente nesse mesmo dia mais tarde. O Google Analytics é capaz de identificar que nesse caso o João que acessou no celular é o mesmo do computador. Nem sempre o Google vai conseguir identificar, é um dos desafios. Mas neste caso conseguiu. Ainda assim, essa é a segunda visita do João. Ela durou 7 minutos e ele gastou 70 reais no site.
É um exemplo bem simples de um usuário que acessou o site uma vez e depois acessou de novo. Essa ferramenta não só é capaz de rastrear tudo que ele fez durante a sessão, como também manter o acompanhamento de outras seções que o usuário faça.
[05:5] Imaginemos um caso em que teremos esse desafio de acessar a ferramenta de olhar para o usuário e identificar vários tipos de acesso para ele. Nós que iremos analisar a informação devemos estar cientes. O João pode ter recebido um e-mail dizendo para verificar o status da compra. Imagine que ele acessou o e-mail do trabalho para isso. Mas nesse momento talvez a ferramenta não vai ser capaz de identificar que é o mesmo João e pode dar a ele um novo id.
O João verifica o status do pedido, fica cinco minutos e não compra nada. Esse é um desafio. Imagine que ele compartilha o computador com algum colega e ela acessa o site. Ela vai ser identificada pelo mesmo usuário do João.
As ferramentas de web analytics vão tentar extrair diversos tipos de informação sobre a navegação do usuário no site. Além disso, ela vai manter o rastreamento de várias visitas que possam ser feitas. Um dos desafios que temos é que nem sempre a informação que aquele usuário que fez o acesso é tão acurada.
Além disso, aprendemos que cada linha que traçamos aqui na tabela é uma visita. Essas visitas, ou sessões, estão relacionadas a um usuário. Quando falamos que iremos prever quanto um usuário vai gatar no site, essa informação está relacionada ao usuário, e não à visita. Quando formos preparar a base para o modelo, teremos que criar variáveis que falem sobre o usuário, e não sobre a visita. Vamos ter que trabalhar nossa base de dados para trazer informações sobre o usuário.
O curso Data Analytics: Machine Learning no Marketing Digital possui 175 minutos de vídeos, em um total de 45 atividades. Gostou? Conheça nossos outros cursos de Machine Learning em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.