Bem-vindos ao nosso curso de Data Analysis. Esse curso vai se aprofundar em muitos conceitos muito importantes dentro da Data Analysis e da Data Science também. Então, com certeza o que você vai aprender nesse curso, você vai vivenciar no seu dia a dia.
Nesse curso vamos iniciar estudando os conceitos de freqüência. Então, vamos estudar sobre a frequência relativa, a frequência absoluta, como apresentamos esses conceitos, como calculamos. Também vamos aprender como mostrar visualmente os conceitos da frequência através do histograma.
Então, qual a importância do histograma que é muito utilizado em nossas análises pela vida futura. Quais são os tipos de histogramas que temos: o histograma simétrico, distorcido à direita, distorcida à esquerda ou cauda direita, cauda esquerda, bimodal, multimodal, platô, diversos tipos.
Também faremos análises utilizando o histograma. Então, vamos fazer algumas análises relacionando o tempo, velocidade e vamos ver como podemos utilizar o histograma para enriquecer as nossas análises e tirar conclusões em sites bem interessantes também.
Também vamos aprender um conceito extremamente importante, que é a correlação. Nesse curso, especialmente, vamos aprender sobre a correlação de Pearson, mas também vamos estudar sobre correlação direta e indireta. Justamente sobre essa classificação de Pearson, quando a correlação é fraca, quando ela é forte, como calculamos essa correlação. Vamos aprender também, relembrar na verdade, conceitos da equação da reta para poder utilizar na regressão linear.
E todos esses conceitos, vamos utilizar na prática, aqui no Google Sheets teremos uma série de dados para relacionar, vamos ver se existe uma correlação de renda familiar com o gasto com livros por ano. O gráfico já está aqui na frente, mas vamos calcular quanto essa correlação, se a correlação existe, se ela é forte, se ela é fraca, de quanto exatamente ela é.
E vamos fechar calculando a regressão linear, a função de regressão linear. Vamos ver como funciona isso aqui no gráfico, quais são as fórmulas que o Google Sheets disponibiliza e como podemos fazer isso de forma automática. Então, a regressão linear é uma ferramenta extremamente poderosa e importante dentro da análise de dados.
Vamos também nos aprofundar no conceito de sazonalidade, que é um conceito extremamente importante. Muitas pessoas passam batido nesse conceito ou acabam descobrindo esse conceito na prática, no dia a dia, e isso faz com que elas percam muito tempo e dinheiro.
Então, vamos estudar, e dentro da sazonalidade, também faremos diversas análises. Vamos começar estudando aqui, vamos ter um gráfico, nem sempre é tão intuitivo identificar a sazonalidade. Vamos identificar usando uma técnica para conseguir quebrar os períodos e enxergar a sazonalidade de forma mais clara.
Também vamos estudar qual é a diferença da sazonalidade aditiva para a sazonalidade multiplicativa e vamos começar a criar alguns modelos de predição dentro da sazonalidade. Então, vou ter os meus dados que vão apresentar uma sazonalidade, vamos criar um modelo que vai contemplar esses dados e vamos criar um modelo de previsão também.
Também vamos trabalhar com dois conceitos mesclados, que é a sazonalidade com tendência, quando não tem um só movimento de sazonalidade, mas quando esse movimento está crescendo também. Vamos criar um modelo aqui que vai cobrir esses dois conceitos e também vamos estudar e criar modelos quando o intervalo de sazonalidade for par.
Têm muitos conceitos por trás, intervalo de sazonalidade, índice de sazonalidade individual, índice de sazonalidade de intervalo, o modelo preditivo.Tem bastante conteúdo no nosso curso para estudarmos. E por fim, vamos entender a importância dos dados, porque caso você tenha dados enviesados ou de baixa qualidade, temos essa máxima dentro da estatística: Entra lixo, sai lixo.
Você pode ter as melhores técnicas, como você vai aprender aqui no curso, mas se você não tiver dados bons para você fazer as análises, a sua análise vai ser extremamente prejudicada.
Tem esse desenho do Caldeirão, você vai entender no curso o porquê, mas vamos entender como conseguimos extrair uma parte dos dados que vai me representar o todo e com aquelas partes, eu consigo fazer técnicas tão precisas quanto se eu estivesse trabalhando com aquela infinidade de dados.
[04:24]Também vamos aprender que alguns problemas típicos dos dados, alguns vieses, para nas nossas análises, conseguirmos farejar isso de longe e evitar esses problemas, para enriquecer bastante isso.
[04:38]Façam todas as atividades, os exercícios, coloquem a mão na massa mesmo, na prática, eu tenho certeza que você vai enriquecer muito seu conhecimento durante esse curso. Nos vemos no próximo vídeo.
Então, vamos lá. O chefe do Jorge pediu para ele fazer o cálculo da frequência relativa do número de livros vendidos, de estatística, ao longo de 15 semanas. Como ele pode fazer esse cálculo? Ou melhor, o que será que significa esse termo, “frequência”? A frequência é o número de vezes que algo acontece.
A partir de agora, para usarmos uma linguagem técnica, principalmente no mundo da estatística e no mundo da análise, vamos usar o termo frequência. Mas, basicamente, temos dois tipos de frequência. Temos a frequência absoluta e a frequência relativa.
O chefe do Jorge quer que ele calcule para ele a frequência relativa, mas antes disso, vamos entender o que é a frequência absoluta. Frequência absoluta é simplesmente o número puro, é o número de vezes que algo vai acontecer. Por isso, muitas vezes, essa frequência absoluta também é conhecida como frequência simples.
Então, vamos supor, temos aqui a tabela com os números de livros vendidos ao longo das 15 semanas. Aqui nessa coluna eu tenho as semanas e, aqui na outra coluna, eu tenho os livros.
Semanas | Livros Estatística | Matemática | Português | Geografia |
---|---|---|---|---|
1 | 4 | 5 | 13 | 19 |
2 | 7 | 7 | 11 | 16 |
3 | 6 | 8 | 12 | 15 |
4 | 11 | 5 | 15 | 11 |
5 | 7 | 13 | 17 | 9 |
6 | 12 | 25 | 14 | 8 |
7 | 14 | 14 | 16 | 7 |
8 | 11 | 15 | 17 | 13 |
9 | 20 | 10 | 13 | 8 |
10 | 19 | 8 | 18 | 9 |
11 | 18 | 7 | 17 | 15 |
12 | 21 | 19 | 16 | 17 |
13 | 20 | 8 | 11 | 19 |
14 | 19 | 20 | 10 | 11 |
15 | 22 | 21 | 19 | 7 |
Como eu quero saber dos livros de estatística, eu quero a frequência absoluta, vou até criar aqui um termo, eu vou colocar em negrito para diferenciar um pouco. Vou escrever aqui, dar dois cliques, “Frequência Abs”, de absoluto.
Se eu quero saber a frequência absoluta dos livros de estatística, é muito simples, eu posso usar a função soma. Eu posso vir aqui na célula e digitar, ‘SOMA’, abro parênteses. E vou somar o que? Os livros de estatística.
Eu quero saber simplesmente o número de livros vendidos aqui, essa é a minha frequência absoluta, é o número. E aqui eu acho o resultado. Então, a frequência absoluta dos livros de estatística vendidos, ao longo das 15 semanas, é igual a 211.
Já a frequência relativa é sempre comparada a um total, inclusive esse cálculo nos aproxima mais da média, porque estou comparando, na verdade, duas informações. Eu não quero saber simplesmente um número absoluto, eu quero saber o número em relação ao total.
[02:02]Geralmente é dado em porcentagem. Não tem unidade, mas como estamos comparando duas unidades iguais, eu posso usar a porcentagem que vai me dar uma noção muito melhor do todo. Então, vamos ver aqui na nossa tabela se eu quiser calcular agora a frequência relativa.
[02:18]Eu disse que para calcularmos a frequência relativa, precisamos ter como parâmetro o total. Vou procurar o “Negrito” aqui, no centro superior da tela. Vamos entender primeiro qual é o total de eventos que eu tenho. O total são todos os livros que eu estou analisando aqui na tabela, vendidos nesse mesmo período de 15 dias.
Então, eu também vou usar a função de ‘SOMA’, porém, em relação ao total. Vou selecionar todos os meus dados na tabela, fecho o parêntesis e aperto “Enter” no teclado. Meu total chegou a 799 livros vendidos nesse período.
[02:53]Para descobrir a frequência relativa, dá um duplo clique aqui no negrito, no centro superior da tela e digitar ‘Frequência Relativa’. Para encontrar a frequência relativa, qual é o cálculo que eu vou fazer? Colocar o igual para a célula receber o cálculo, eu vou dividir a frequência absoluta pelo todo, pelo total de eventos que eu tenho, igual. E aqui eu encontro a frequência relativa.
[03:29]Lembra que eu disse que é muito mais comum usarmos a porcentagem para representar? Fica um número mais amigável.
[03:35]Para transformar esse dado aqui em porcentagem eu posso vir aqui em cima, vamos ver se damos um zoom aqui na tela. Então, aqui em cima, do lado superior esquerdo, eu tenho, como o formato está em porcentagem, dou um clique, volto e pronto, está aqui o meu resultado: 26,41%. Essa é a minha frequência relativa.
frequência Abs | Total | Frequência Relativa |
---|---|---|
211 | 799 | 26,41% |
[03:53]Quer dizer que, no todo, a minha parte vendida de livros de estatística foi igual a 26 vírgula 41 por cento.
Agora o Jorge precisa representar graficamente os dados que ele obteve da venda dos livros de estatística ao longo das semanas. Pesquisando, ele descobriu que a melhor forma de representar graficamente esses dados é através de um histograma.
Mas por que vamos usar o histograma para esse conjunto de dados que obtivemos da frequência? E quando será que é a melhor ocasião para que eu use o histograma? O Histograma, na verdade, é muito conhecido e muito utilizado dentro do mundo das análises. Você provavelmente já teve contato com esse tipo de gráfico
Vamos detalhar agora um pouco melhor, vamos entender como é que funciona. O primeiro objetivo de um gráfico, e assim também do histograma, é resumir os dados de forma visual, porque nosso cérebro não é preparado para identificar de forma automática ou intuitiva um grande conjunto de dados.
Então, eu posso organizar esses dados através de um histograma. Sempre que você não tiver muita certeza do que fazer com um grande conjunto de medidas, especialmente com os de frequência, eu posso utilizar do histograma.
Com o histograma conseguimos alcançar alguns objetivos. Primeiro como eu disse, resumir graficamente um extenso conjunto de dados, segundo, eu consigo comparar processos específicos da minha empresa e também limites. Vamos supor que estou trabalhando para a empresa que produz algum tipo de material e ela tem um limite.
Vamos supor que meu limite esteja aqui nesse ponto 15. É claro que esse ponto 15 pode estar na ordem de grandeza que eu quiser, pode ser de milhares. Então, vamos supor que ela produz certo equipamento, certo componente e o limite esteja em 15 mil.
Eu consigo observar onde o meu limite está acontecendo, onde eu ultrapasso, que nesse caso vou precisar readequar, e onde está abaixo. Então, eu consigo identificar claramente esse tipo de limite. E claro, também consigo comunicar, de forma visual, à toda a minha equipe, especialmente quando as equipes são muito grandes.
[01:59] Então, é muito melhor, ao invés de passar tabelas e tabelas para a equipe, que eu resuma esses dados e apresente um histograma, porque o histograma vira uma ferramenta de comunicação muito poderosa.
Os dados de indicador do histograma podem ser de alguns tipos, por exemplo, podem ser para classificar. Então, consigo classificar no histograma se as peças, por exemplo, são defeituosas ou não, consigo classificar o número de acidentes que eu tenho, no mês, na minha empresa ou não, se o cliente está satisfeito ou não.
Eu consigo fazer através do histograma uma espécie de classificação, consigo enxergar visualmente aqui o número de eventos que estão acontecendo do que quero classificar. Também posso fazer uma espécie de contagem claro, por exemplo, “o número de riscos numa peça”, monto o histograma e vou identificar aquilo de forma visual, “o número de acidentes nos meses”, como eu tinha dito, você também pode usar para contar.
E claro, posso usar também para dados contínuos. Aqui embaixo, no meu eixo X, eu vou ter aqui um intervalo. E dentro desse intervalo estou contemplando números inteiros, mas, por exemplo, eu tenho, dentro da minha observação, de 40 a 45, aqui eu estou falando sobre algumas substâncias presentes no sangue ou em alguma outra substância qualquer.
Mas aqui eu tenho do 40 ao 45, do 45 ao 50, então eu estou indo de 5 e 5 e contemplo o número de observações que eu tenho dentro desse intervalo. O histograma nos permite também identificar alguns pontos muito interessantes.
Primeiro, eu consigo identificar a centralidade. Então, está aqui a minha distribuição de frequências, e através do histograma eu consigo identificar onde está o centro dessa distribuição e onde se concentra o maior número de observações. Na tela, conseguimos ver que o maior número de observações está aqui.
Vamos esquecer um pouco do que estou falando, porque eu consigo encaixar o histograma em qualquer tipo de análise. Mas, olhando para o histograma, eu nem sei do que se trata, porém, já identifico que o maior número de observações do que eu estou falando está aqui, está centralizado aqui.
Eu também consigo identificar a minha amplitude, ou seja, qual é o intervalo de abrangência do que eu estou analisando. Ele começa aqui, do lado esquerdo do histograma, e vai até aqui, do lado direito do histograma. Então, eu já identifico rapidamente qual é todo o meu intervalo, do que eu estou tratando no histograma.
Também consigo identificar se existe uma simetria dentro do meu processo. Como assim? Vamos supor que eu dividisse esse histograma na metade e eu tenho o meu lado esquerdo e o meu lado direito. Se houvesse uma simetria, teria um equilíbrio, estaria dividindo exatamente no meio, porém, observamos que nesse nosso exemplo não tem uma simetria.
Se dividirmos o histograma no meio, observamos que a maior concentração de observações está aqui do meu lado esquerdo e do meu lado direito tem uma distribuição muito menor. Então, isso já me auxilia muito, faz com que eu ganhe muito tempo dentro das minhas análises.
O que é um histograma? Histograma basicamente é um gráfico de barras que vai demonstrar a distribuição das frequências dos eventos, do que está acontecendo e do que eu estou fazendo na minha análise.
É muito comum as pessoas confundirem um histograma com um gráfico de barras ou de colunas. Então, eu trouxe um exemplo de gráfico de colunas, que já aprendemos que estão na posição vertical, e aqui tem um gráfico de barras.
Muitos autores defendem que para que as pessoas não confundam, quando formos fazer um gráfico de colunas, criarmos um espaço entre as colunas para não confundir com o histograma.
Qual a diferença, basicamente, entre eles? No histograma, vou focar quando eu tiver que fazer uma representação gráfica do número de frequência do que está acontecendo comigo e, especificamente, não vou ter intervalo, porque como embaixo estou relacionando os intervalos, vou por exemplo de 0 a 5, de 5 a 10, eu não pulo de 0 a 5 e depois eu coloco de 8 a 12. O histograma tem uma continuidade, como vimos.
E no meu eixo vertical, vou demonstrar a frequência, porque visualmente eu bato o olho aqui e já identifico onde está acontecendo a minha maior frequência.
O curso Data Analysis: previsões com Google Sheets possui 169 minutos de vídeos, em um total de 48 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.