Análise Exploratória: primeiros passos | Alura
Neste artigo, aprenderemos sobre Análise Exploratória de Dados, abordando conceitos como: Conjuntos de Dados para extrair melhores resultados, DataSet e Dicionário de Dados.
Conhecer essas nomenclaturas é essencial para simplificar o aprendizado na hora de realizar a Análise Exploratória dos Dados. Vamos lá?
O que é análise exploratória de dados?
A análise exploratória de dados (ou Exploratory Data Analysis - EDA, em inglês) é um tipo de exploração e de análise de dados.
Ou seja, é através dessa abordagem que cientistas de dados podem ter uma visão panorâmica sobre os dados. E mais do que isso: conseguem extrair algum conhecimento a partir deles. Por isso, é um processo fundamental na rotina de trabalho de todas as pessoas que trabalham com Ciência de Dados
Elementos da análise de dados exploratória
Como vimos, a análise de dados exploratória é uma etapa essencial no processo de investigação e compreensão de conjuntos de dados.
Essa abordagem, muitas vezes considerada a primeira etapa na análise estatística, utiliza elementos que ajudam a entender a estrutura e a natureza dos dados, identificando possíveis relações e padrões ocultos.
A seguir, conheceremos os principais componentes desta análise.
Dataset
Assim como o próprio nome indica, um Dataset é um conjunto de dados formado normalmente por colunas e linhas, em que cada valor é conhecido como um dado.
O conceito indica que todas as informações já estão presentes em uma tabela única.
Ele tende a possuir um cabeçalho com os nomes bem definidos para cada coluna e pode conter duplicidades de informações e/ou dados nulos.
Dessa forma, os DataSets são conjuntos de dados que costumam ser organizados por temas.
É comum encontrar Dataset sobre filmes de uma plataforma, ou então Dataset de vendas de produtos de um site, dados do IBGE sobre determinada doença, entre outros.
Confira um exemplo de visualização de um Dataset:
Ele forma um conjunto de informações sobre um assunto a ser analisado e, normalmente, o intuito é que seja visualizado através desses dados, possibilidades de melhorias, identificação de padrões ou resoluções de problemas.
Existem sites especializados em centralizar Datasets para serem utilizados em pesquisas ou até competições. Sendo assim, vamos entender como poderíamos trabalhar melhor nos conjuntos de dados.
Dicionário de Dados
Um dicionário de dados é um documento de texto ou planilha que centraliza informações sobre o conjunto de dados.
A ideia é melhorar a comunicação entre todas as pessoas envolvidas no projeto de Análise de Dados.
O dicionário de dados funciona como um mapa, servindo de guia e mostrando os objetivos sem apresentar ambiguidades nas informações.
O contexto em que a informação foi coletada, melhora significativamente a qualidade das análises de dados construídas a partir das informações coletadas.
Conhecer os tipos de dados, tamanho, origem, entre outros detalhes, é primordial para uma análise de qualidade e o alinhamento com as regras de negócios.
Infelizmente, é muito raro encontrar Datasets com dicionário. É uma prática que deveria se tornar mais frequente e que agrega muito valor.
Espero que estes conceitos tenham ficado claros. Aqui na Alura, temos a formação de Data Science que aborda desde a Exploração e Análise de Dados até Aprendizado de Máquina, onde você será capaz de criar seus próprios modelos Data Science.
Até mais!