Praticando Pandas: criando tabulações com pivot_table

Criando tabulações com pivot_table - Aplicando o método pivot_table

Olá! Meu nome é Valquíria, sou instrutora na Escola de Dados.

Audiodescrição: Valquíria Alencar se descreve como uma mulher branca, de olhos castanhos, cabelos loiros e ondulados na altura abaixo dos ombros. Tem tatuagens aparentes e piercing no septo. Está com uma blusa rosa. Ao fundo, vaso de planta à esquerda e estante com decorações à direita.

Criando tabulações com `pivot_table()`

Neste curso, vamos recapitular e praticar a criação de tabelas dinâmicas usando a Biblioteca Pandas, com foco no método pivot_table(). Para trabalhar com isso, já temos um notebook pronto, que estará disponível na próxima atividade para consulta.

Carregando dados

Vamos começar carregando alguns dados que utilizaremos com o pivot_table. Primeiramente, importamos a Biblioteca Pandas:

import pandas as pd

Executamos o código com "Ctrl + Enter" ou botão de play à esquerda da célula.

Em seguida, carregamos os dados de um arquivo CSV de uma empresa de aluguel de bicicletas, armazenando-os em uma variável chamada df:

df = pd.read_csv('https://raw.githubusercontent.com/alura-cursos/python_dados/refs/heads/main/Dados/contagem_bicicletas.csv')

Para verificar as cinco primeiras linhas do dataframe df, utilizamos o método head():

df.head()

#	data_hora	contagem	temperatura	sensacao_termica	umidade	velocidade_vento	clima	feriado	fim_de_semana	estacao
1	2015-01-04 00:00:00	182	3.00	2.00	93.0	6.0	Nublado	Não	Sim	Inverno
2	2015-01-04 01:00:00	138	2.75	2.25	93.0	5.0	Céu limpo	Não	Sim	Inverno
3	2015-01-04 02:00:00	134	2.50	2.50	96.5	0.0	Céu limpo	Não	Sim	Inverno
4	2015-01-04 03:00:00	72	2.00	2.00	100.0	0.0	Céu limpo	Não	Sim	Inverno
5	2015-01-04 04:00:00	47	2.00	2.00	93.0	6.5	Céu limpo	Não	Sim	Inverno

São dados de uma empresa que faz aluguel de bicicletas que incluem colunas com informações sobre a data e horário do aluguel, a quantidade de bicicletas alugadas, a temperatura, a sensação térmica, a umidade, a velocidade do vento, o clima, se era feriado, se era final de semana e a estação do ano.

A partir desses dados, podemos extrair vários insights, por exemplo, como qual estação do ano ou clima tem mais bicicletas alugadas.

Utilizando método `pivot_table()`

O método pivot_table() nos permite agrupar e criar uma tabela dinâmica de acordo com uma ou mais colunas.

Ele pode trazer resultados semelhantes ao groupby(), mas com vantagens adicionais que exploraremos ao longo do vídeo. Vamos começar entendendo como utilizar o método pivot_table().

Para obter a média de contagem de bicicletas para cada clima, criamos uma variável chamada pivot_clima que recebe o método pd.pivot_table() para poder utilizá-lo. Entre os parênteses do método, passamos o dataframe que será usado, nesse caso, o df.

Em seguida, definimos outros parâmetros, cada um separado por vírgula. Primeiro, definimos o valor no qual aplicaremos uma função de agregação através do parâmetro values. Nesse caso, será a coluna "contagem" que contém a quantidade das bicicletas.

Por fim, para definir por qual coluna os dados serão agrupados, vamos acrescentar o parâmetro index. Dessa vez, o índice dessa tabela será a coluna "clima".

pivot_clima = pd.pivot_table(df, values='contagem', index='clima')
pivot_clima

clima	contagem
Chuva com trovoadas	583.428571
Chuva leve	712.966371
Céu limpo	1162.088943
Neve	250.850000
Nublado	1195.124472
Parcialmente nublado	1266.925791

Executando a célula, obtemos a média de contagem para cada clima. Perceba que não especificamos a função de média em nenhuma parte do código. Isso porque, por padrão, o pivot_table() calcula a média dos valores, mas também é possível especificar outras funções.

Dica: Para facilitar a análise, poderíamos usar o método sort_values(ascending=False) para ordenar a contagem do maior para o menor valor.

Utilizando funções de agregação específicas

Já calculamos a média que é a função padrão do pivot_tables(), mas como podemos fazer para usar outra função de agregação?

Se quiséssemos obter a soma das bicicletas para cada clima, poderíamos usar a função sum. Bastaria fazer o pivot_table() de df, definindo os parâmetros values como "contagem", index como "clima" e aggfunc como "sum".

pivot_clima = pd.pivot_table(df, values='contagem', index='clima', aggfunc='sum')
pivot_clima

clima	contagem
Chuva com trovoadas	8168
Chuva leve	1526461
Céu limpo	7146847
Neve	15051
Nublado	4243887
Parcialmente nublado	6965558

Para cada um dos climas, obtemos a soma da contagem de bicicletas. Novamente, também poderíamos fazer um sort_values() para ordenar os valores de forma crescente ou decrescente.

Agrupando dados por mais de uma coluna

Como fazemos para agrupar dados por mais de uma coluna? Por exemplo, vamos calcular a média de bicicletas por clima e por estação de ano.

Para isso, chamamos o pivot_table(), passa o dataframe e os valores, que nesse caso, ainda é a coluna de "contagem".

Para definir mais de uma coluna de agrupamento, vamos passar uma lista (ou seja, abre e fecha colhetes) com as colunas desejadas para o parâmetro index. Dessa vez, vamos agrupar tanto pela "estacao" quanto pelo "clima".

Por fim, definimos o parâmetro aggfunc igual a "mean" (média). Apesar da média já ser o padrão, deixamos essa função de agregação especificada para o código ficar mais claro.

pivot_clima_estacao = pd.pivot_table(df, values='contagem', index=[ 'estacao', 'clima'], aggfunc='mean')
pivot_clima_estacao

estacao	clima	contagem
Inverno	Chuva com trovoadas	228.000000
-	Chuva leve	542.968153
-	Céu limpo	760.163115
-	Neve	318.409091
-	Nublado	971.990635
-	Parcialmente nublado	908.796070
Outono	Chuva com trovoadas	242.000000
-	Chuva leve	788.809249
-	Céu limpo	1130.973451
-	Neve	59.300000
-	Nublado	1281.383778
-	Parcialmente nublado	1304.220484
Primavera	Chuva com trovoadas	798.428571
-	Chuva leve	677.873162
-	Céu limpo	1144.472603
-	Neve	74.666667
-	Nublado	1162.028607
-	Parcialmente nublado	1199.101483
Verão	Chuva com trovoadas	421.800000
-	Chuva leve	905.160000
-	Céu limpo	1471.312843
-	Nublado	1393.618065
-	Parcialmente nublado	1688.683146

Executando a célula, obtemos uma tabela multi-index. Nessa dataframe, temos um índice que contém a estação do ano e outro que contém o clima. Depois, temos a média de contagem de bicicletas.

Reformatando uma tabela

No entanto, o resultado fica difícil de visualizar dessa forma. Uma melhor maneira de visualizar isso seria reformatar a tabela, transformando o clima em colunas.

Para isso, vamos chamar o pivot_table(), chamar o dataframe e definir "contagem" como values novamente. Agora, no parâmetro index, vamos deixar apenas a coluna "estacao". Em seguida, adicionamos o parâmetro columns que será igual ao "clima".

pivot_clima_estacao = pd.pivot_table(df, values='contagem', index=['estacao'], columns=['clima'], aggfunc='mean')
pivot_clima_estacao

estacao/clima	Chuva com trovoadas	Chuva leve	Céu limpo	Neve	Nublado	Parcialmente nublado
Inverno	228.000000	542.968153	760.163115	318.409091	971.990635	908.796070
Outono	242.000000	788.809249	1130.973451	59.300000	1281.383778	1304.220484
Primavera	798.428571	677.873162	1144.472603	74.666667	1162.028607	1199.101483
Verão	421.800000	905.160000	1471.312843	NaN	1393.618065	1688.683146

Assim, temos uma linha para cada estação do ano e uma coluna para cada clima, facilitando a visualização das médias de contagem de bicletas agrupadas por esses dois fatores.

Aplicando diferentes funções de agregação para diferentes colunas

Já entendemos como agrupar por apenas uma coluna e por mais de uma coluna. Mas, como podemos aplicar diferentes funções de agregação para diferentes colunas?

Nesse cenário, faremos df.pivot_table() para agrupar os dados pela estação e pelo clima novamente. Por isso, listamos ambas as colunas no parâmetro index. Agora, vamos colocar como valores, no parâmetro values, as colunas de contagem, tempetatura, sensação térmica e umidade.

No entanto, queremos obter a soma da contagem, mas a média dos demais valores. Para definir isso, podemos usar um dicionário (ou seja, abre e fecha chaves) no parâmetro aggfunc, especificando a função de agregação para cada coluna.

Assim, a primeira chave será a coluna "contagem" e o valor será a função sum. Em seguida, a segunda chave será a coluna "temperatura" e o valor será a função mean. Depois, estipularemos a função mean também para a terceira e quarta chaves de "sensacao_termica" e "umidade", respectivamente.

pivot_agregacoes = df.pivot_table(
    index=['estacao', 'clima'],
    values=['contagem', 'temperatura', 'sensacao_termica', 'umidade'],
    aggfunc={
        'contagem': 'sum',
        'temperatura': 'mean',
        'sensacao_termica': 'mean',
        'umidade': 'mean'
    }
)
pivot_agregacoes

estacao	clima	contagem	sensacao_termica	temperatura	umidade
Inverno	Chuva com trovoadas	228	6.500000	10.000000	88.000000
-	Chuva leve	340984	7.188296	9.046576	83.739650
-	Céu limpo	927399	3.811066	6.022336	76.006148
-	Neve	14010	1.568182	4.375000	87.829545
-	Nublado	934083	7.008585	8.754422	78.369927
-	Parcialmente nublado	1341383	5.933096	7.887873	76.405149
Outono	Chuva com trovoadas	242	18.500000	18.500000	91.000000
-	Chuva leve	409392	12.222543	12.830443	84.075145
-	Céu limpo	1533600	11.516962	12.233776	74.282448
-	Neve	593	3.800000	7.400000	91.550000
-	Nublado	1295479	13.331355	13.689416	78.105341
-	Parcialmente nublado	1833734	13.035799	13.461830	73.333926
Primavera	Chuva com trovoadas	5589	7.785714	9.785714	63.071429
-	Chuva leve	368763	8.657169	10.186581	80.169118
-	Céu limpo	2005116	9.775970	10.843322	64.142694
-	Neve	448	5.083333	7.833333	91.250000
-	Nublado	934271	9.302861	10.582090	73.543532
-	Parcialmente nublado	1536049	9.370414	10.700234	66.598556
Verão	Chuva com trovoadas	2109	18.200000	18.200000	85.500000
-	Chuva leve	407322	17.064444	17.065556	81.085556
-	Céu limpo	2680732	18.855653	18.930845	61.675906
-	Nublado	1080054	17.545806	17.558710	73.968387
-	Parcialmente nublado	2254392	18.685393	18.716854	64.894757

O resultado será uma grande tabela contendo a soma da contagem e a média das outras colunas, para cada clima e para cada estação.

Dica: Se você quiser melhorar essa tabela e deixá-la ainda mais informativa, você pode renomear as colunas e especificar a função aplicada a cada uma, através do método rename().

Adicionando valores gerais para linhas e colunas

O pivot_table oferece vantagens em relação ao groupby(), como a exibição de valores gerais ou preenchimento de valores nulos.

Nesse contexto, vamos agrupar os dados pela estação do ano e acrescentar uma coluna para cada clima, onde teremos os valores de contagem de bicicleta. Nesse caso, a função de agregação será a soma da contagem.

Imagina que queremos exibir a soma total de todas as colunas e linhas. Podemos fazer isso simplesmente adicionando o parâmetro margins igual a True. Assim, teremos uma linha e uma coluna nova no final da tabela com esse somatório.

Também podemos usar o parâmetro margins_name para nomear essa nova linha e coluna. No nosso caso, as denominamos como "Total".

Por fim, podemos acrescentar o parâmetro fill_value para preencher informações nulas com um valor definido, como zero.

pivot_table = df.pivot_table(
    index='estacao',
    columns='clima',
    values='contagem',
    aggfunc={'contagem': 'sum'},
    margins=True,
    margins_name='Total',
    fill_value=0
)
pivot_table

estacao/clima	Chuva com trovoadas	Chuva leve	Céu limpo	Neve	Nublado	Parcialmente nublado	Total
Inverno	228	340984	927399	14010	934083	1341383	3558087
Outono	242	409392	1533600	593	1295479	1833734	5073040
Primavera	5589	368763	2005116	448	934271	1536049	4850236
Verão	2109	407322	2680732	0	1080054	2254392	6424609
Total	8168	1526461	7146847	15051	4243887	6965558	19905972

Executando a célula, obtemos a soma das contagens para cada estação e clima, com uma coluna e linha finais contendo o somatório total.

Esses valores finais são calculados de acordo com a função de agregação utilizada. Isso significa que se tivéssemos utilizado a média, o valor total também seria a média. O mesmo comportamento também se aplicaria para mínimo e máximo, por exemplo.

Repare também que no clima de neve no verão, a quantidade de bicicletas alugadas é zero. Afinal, não há neve no verão no Brasil. Isso acontece porque pedimos para preencher os valores nulos com o número zero.

Próximos passos

O pivot_table() é um método flexível que permite agrupamentos e visualizações rápidas de valores totais, além de lidar bem com valores nulos.

Após este vídeo, teremos vários exercícios para aprimorar as habilidades no método pivot_table(). Vamos colocar a mão na massa nas atividades? Até mais!

Sobre o curso Praticando Pandas: criando tabulações com pivot_table

O curso Praticando Pandas: criando tabulações com pivot_table possui 13 minutos de vídeos, em um total de 13 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Criando tabulações com pivot_table

Praticando Pandas: criando tabulações com pivot_table

Criando tabulações com pivot_table - Aplicando o método pivot_table

Criando tabulações com `pivot_table()`

Carregando dados

Utilizando método `pivot_table()`

Utilizando funções de agregação específicas

Agrupando dados por mais de uma coluna

Reformatando uma tabela

Aplicando diferentes funções de agregação para diferentes colunas

Adicionando valores gerais para linhas e colunas

Próximos passos

Sobre o curso Praticando Pandas: criando tabulações com pivot_table

Aprenda Data Science acessando integralmente esse e outros cursos, comece hoje!

Plus

Pro

Ultra

Cursos

Cursos universitários FIAP

Praticando Pandas: criando tabulações com pivot_table

Criando tabulações com pivot_table - Aplicando o método pivot_table

Criando tabulações com pivot_table()

Carregando dados

Utilizando método pivot_table()

Utilizando funções de agregação específicas

Agrupando dados por mais de uma coluna

Reformatando uma tabela

Aplicando diferentes funções de agregação para diferentes colunas

Adicionando valores gerais para linhas e colunas

Próximos passos

Sobre o curso Praticando Pandas: criando tabulações com pivot_table

Aprenda Data Science acessando integralmente esse e outros cursos, comece hoje!

Plus

Pro

Ultra

Cursos

Cursos universitários FIAP

Criando tabulações com `pivot_table()`

Utilizando método `pivot_table()`