Melhorando a análise com o Boxplot
O que é um BoxPlot?
Um boxplot (ou diagrama de caixa, numa tradução livre) mostra a distribuição quantitativa dos dados de um jeito que facilita a comparação entre as variáveis, ou através dos níveis categóricos das variáveis.
Essa caixa (“box”) mostra os quartis do dataset enquanto os “whiskers” mostram o resto da distribuição, exceto os pontos que são chamados de outliers.
A linha no centro da figura em verde, no nosso caso, representa a mediana. A linha azul que está na aresta esquerda da figura representa 25% da minha distribuição, e a linha que está na aresta direita representa 75% da distribuição dos dados.
Nas linhas roxas que estão nas extremidades de ambos lados, saem da figura central e mostram uma delimitação, temos o início e o fim da área dos quartis. Agora, repare que há alguns pontos após essa delimitação no lado esquerdo. Esses pontos são chamados de outliers, ou seja, são pontos “isolados” na nossa distribuição.
Para sabermos até onde vão os whiskers, que são esses “bigodinhos de gato” que delimitam os quartis e marcam onde se inicia os outliers, vamos fazer um cálculo. Uma vez que encontramos a mediana, o ponto central da distribuição, sabemos que temos 50% da distribuição à esquerda e 50% à direita. Após isso, vamos dividir novamente os lados na metade, para obtermos duas partes de 25% à direita e 25% à esquerda.
Agora que temos os 4 quartis, cada um com 25%, podemos desenhar a caixa, o “box”, e delimitamos com o 2º e o 3º quartis. Para encontrarmos então a delimitação dos wiskers vamos multiplicar a distância do 2º quartil até a mediana por 1,5. Fazemos o mesmo procedimento com a distância do 3º quartil até a mediana: vamos multiplicá-la por 1,5.
Em suma, o boxplot nos auxilia a visualizar a distribuição de dados divididos nos quartis. Ademais,mostra onde os dados estão mais concentrados e se há outliers fora dos nossos quartis.
Como gerar um BoxPlot usando Python?
Para gerar o Boxplot no Python vamos usar a biblioteca do Seaborn. Nós poderíamos também gerar o Boxplot através de outros métodos, porém uma das vantagens de se utilizar o Seaborn é que ele ficará mais bonito, claro e apresentável.
Para alterar os eixos x e y do nosso diagrama podemos utilizar a biblioteca matplotlib, através do código: import matplotlib.pyplot as plt sns.boxplot(x = dados[‘Salario’]) plt.ylabel(‘Número de funcionários’) plt.show()
Fazendo análises e hipóteses com o BoxPlot
Analisando esse boxplot, percebemos que a maior parte dos dados estão um pouco acima dos 50000 e antes dos 100000. Se analisarmos o histograma gerado com esses mesmos dados (temos um artigo lançado, o link está logo abaixo), percebemos que as informações se complementam. Temos poucos dados (outliers) que estão acima de 100000 por ano.
Nós podemos ir além no uso dos boxplots. Podemos utilizar mais de um boxplot com diferentes categorias (colunas) para fazer análises de comparação entre elas.
Vamos fazer um experimento: analisar a que tipos de conclusões podemos chegar comparando o salário anual com o gênero do(a) funcionário(a). Para isso, vamos gerar o boxplot com o seguinte código:
Como na categoria do gênero feminino temos mais outliers, o gráfico ficou um pouco achatado. Vamos utilizar o matplotlib para melhorar um pouco a visualização:
Vamos analisar um pouco esses boxplots. Não conseguimos responder diretamente se os homens ganham mais que as mulheres, ao menos somente com este passo, já que percebemos que a mediana dos dois boxplots está bem próxima uma da outra. Mas conseguimos analisar que o 3º quartil do gênero feminino acaba bem antes do gênero masculino, o que pode nos dizer que conforme o salário anual aumenta temos uma maior concentração de pessoas do gênero masculino. Percebemos também que há muito mais outliers, dados atípicos na distribuição, de pessoas do gênero feminino que têm altos salários.
Agora é sua vez! Seguindo esses mesmos passos, analise um conjunto de dados. Você pode analisar, por exemplo, os salários de alguma empresa brasileira. Use o boxplot e nos diga nos comentários quais conclusões você pôde obter.
Quer saber mais sobre o assunto?
Para saber mais sobre o tema, você pode conferir o artigo de [histograma](https://www.alura.com.br/artigos/o-que-e-um-histograma. E também checar a documentação.