Bem-vindos a mais um curso da Alura. Eu sou o Rodrigo e vou ser seu instrutor nesse último módulo do nosso curso de estatística, que utiliza a linguagem R como ferramenta. Essa é a parte 4 e a partir de agora vamos falar sobre correlação e regressão linear.
Neste curso vamos ver uma aplicação de boa parte do que já vimos nos cursos anteriores. Vamos ver estatística descritiva, testes de hipótese, estimação. Tudo isso vimos nos três cursos que tivemos antes deste. É um treinamento com bastante conteúdo novo, mas sempre se alimentando dos conteúdos dos cursos anteriores. Você vai começar a entender por que é tão importante ter uma boa base em qualquer conhecimento.
Nosso notebook vem com bastante conteúdo, conceitos, fórmulas, tudo para facilitar o entendimento e para ficar como material de estudo para vocês, como fiz também nos primeiros cursos.
Já no próximo vídeo vamos preparar nosso ambiente de trabalho e começar nosso curso.
Como nos cursos anteriores, antes da gente iniciar o treinamento precisamos configurar o ambiente. Eu escolhi como ferramenta o Microsoft Azure Notebooks. É um serviço de nuvem que oferece acesso online e gratuito para podermos desenvolver e rodar notebooks. Você só vai precisar de acesso à internet, um navegador e uma conta da Microsoft. Se você não tem uma conta, crie uma.
Feito isso, ele vai te jogar para uma janela onde você tem a visualização dos seus projetos. Se você vem acompanhando os cursos desde o primeiro, você já vai ter a pasta pronta. Se você começou agora, vou mostrar como criar um novo projeto.
Você vai em my projects, new project, ele vai pedir um nome. Marquei a minha como public e desmarquei o arquivo README. Clico em create e ele já cria o novo projeto.
Se eu quiser criar um notebook dentro do projeto, venho no símbolo de mais e clico em notebook. Ele vai pedir para escolher um nome e a linguagem. Escolhi o R. Clico em new e ele vai criar o novo notebook.
Vou apagar esses exemplos que eu criei, porque não vamos usar, e vou clicar em curso de estatística em R. Vou criar uma nova pasta, da parte quatro, clicando no mais, e vou entrar nessa pasta.
Deixei quatro arquivos para você fazer o download. No botão de seta para cima, vou navegar até a pasta onde estão os arquivos que eu criei. Seleciono tudo, abro. Ele vai mostrar todo mundo e marco que confio nesses arquivos. Ele vai liberar o upload. Quando tudo estiver verde é porque terminou.
Nosso arquivo de aula é o curso de estatística parte 4. Clico nele, vai abrir uma janela. Não vamos usar tanto o dataset neste curso, mas como já vínhamos usando ele também serve para fazer algumas brincadeiras. Tenho variáveis de renda, idade, altura, UF, sexo, anos de estudo, cor, raça.
Deixei algumas observações e as configurações. Também deixei uma configuração para os gráficos que vou usar no nosso curso. Ali embaixo tenho um espaço para ler o dataset. Vou chamar de dados, com a função read.csv. Passo a raiz do projeto.
Uma coisa que vou pedir no final do projeto é o parâmetro sep, de separador. Você pode configurar aqui para ponto e vírgula. Assim ele vai ler o arquivo com separador ponto e vírgula.
No próximo vídeo vamos rodar uma primeira versão só para tomarmos um susto do conteúdo que vamos aprender neste curso.
O ambiente de desenvolvimento já está preparado. Vamos começar realmente nosso curso de estatística falando de correlações e regressões lineares simples. Assim como no curso anterior, de teste de hipótese, já começamos de cara rodando um teste, sem falar de teoria nem nada, que foi um teste de normalidade.
Agora vamos fazer a mesma coisa, vamos rodar uma regressão e ver de forma rápida boa parte do que vamos aprender neste curso. Depois, logicamente, vamos ver cada ponto com calma e detalhes.
Deixei um dataset pronto que eu mesmo criei para facilitar nosso aprendizado. Eu não vou usar dados reais como nosso dataset da PNAD, isso porque com dados reais geralmente surgem problemas que temos que resolver, coisas que vão nos fazer perder o foco, que é aprender a técnica de regressão pura e simplesmente.
Esse dataset tem somente duas variáveis, isso porque neste curso vamos aprender o modelo de regressão linear simples. Esse tipo de modelo tem apenas uma variável explicativa, que aqui é representada pela variável x do nosso dataset, que é a renda da famílias. A variável y, também conhecida como dependente, vai ser o gasto das famílias.
O modelo que quero estimar aqui é baseado na simplificação de uma teoria que diz que o gasto das famílias é uma função da renda dessas famílias. Vamos rodar o modelo. Primeiro quero visualizar o dataset. Para fazer isso posso pegar os primeiros registros e passar o dataset. Eu quero saber também quantos registros tem no meu dataset. Para isso uso nrow.
O primeiro passo quando estou rodando o modelo de regressão é conhecer as variáveis que estou trabalhando. Quero ver como elas se comportam, se preciso de algum tipo de tratamento. Aquelas coisas que não vamos ter que fazer aqui, mas pode acontecer. Para isso, primeiro dou uma olhada nas estatísticas descritivas dessas variáveis.
Tenho a função summary, que passo meu dataset. Ele vai rodar as estatísticas para a variável y e para a variável x. Temos mínimo e máximo, primeiro quartil, mediana, média, terceiro quartil. Coisas que vimos nos treinamentos anteriores.
Usando a função apply, passo o meu dataset, digo que quero que ele crie as estatísticas para colunas ou linhas. Como tenho um dataset com colunas, vou colocar o número 2. Vendo a ajuda você entende melhor como isso funciona.
No final passo uma função que quero que ele me retorne dessas colunas, que é o SD, desvio padrão. Agora, uma coisa interessante também é fazer uma análise gráfica desses dados, um boxplot. Para criar um boxplot para as duas variáveis, uso uma funcionalidade chamada stack, passando o dataset. Ele vai empilhar as informações para eu passar para o ggplot. Ele cria uma coluna chamada int e coloca os nomes das variáveis. Ele faz a mesma coisa para x.
Passando esse cara para a função que eu já deixei pronta, e passando também o que quero no eixo x e y, que são as variáveis int e values respectivamente, vamos ter os nomes das variáveis como x e y. Isso aconteceu porque ele plotou o gráfico em pé. Eu vou usar o coord flip para inverter.
Reparem que ele não mostra aqueles pontinhos extras que ficam para fora, está bem comportado, apesar de não ser perfeito. Outro passo que vamos começar a perceber é que estamos rodando modelos lineares. É interessante ter uma relação linear entre as variáveis que estamos trabalhando.
Uma forma de visualizar isso é graficamente. Vou plotar um gráfico com o dataset e as variáveis que quero rodar, que são x e y. Ele me dá um gráfico de dispersão. Repare na tendência. Ele plota inclusive uma reta de ajuste que vamos ver neste curso.
Tem uma relação bem forte entre as duas variáveis. Isso já me dá uma primeira impressão. Posso querer uma informação numérica sobre esse tipo de relação entre as duas variáveis. Quero um número e vou buscar essa informação com o coeficiente de relação.
O R tem uma funcionalidade para isso, que é o cor, passando o dataset. Ele vai criar uma matriz de correlação. A diagonal principal vai ser sempre 1 e esses outros pontos são iguais porque estamos fazendo a correlação de x contra y e de y contra x.
Vamos falar dessa medida de correlação. Ela é um número que varia de -1 a 1. Quanto mais próximo dos extremos, mais forte a relação linear entre as variáveis. Quanto mais próximo de 0, menos intensa é a relação.
Vimos pelo número que a relação aqui é bem forte, o gráfico também indica isso. Vamos rodar nosso modelo de regressão. O R tem uma função simples para isso, que é a LM, onde passo dois parâmetros. Vamos escrever como se fosse uma fórmula. Vai ser y, coloco til e x. É como se fosse y igual a x.
A próxima informação é o data, que vai ser dataset. Ele vai armazenar tudo isso dentro da variável regressão. Ele me passa os coeficientes estimados. Vamos falar disso com calma depois.
Uma forma de visualizar mais informações do resultado é usando uma função semelhante a que fizemos lá, chamada summary, colocando a variável que criamos dentro dessa summary. Como você está passando um objeto que vem de uma função de estimação, ele vai entender o que é e vai rodar do jeito que precisamos.
Ele já me reporta mais informações, os coeficientes estimados, o T valor. Estamos testando uma hipótese em cima de cada parâmetro estimado. Temos outro teste de hipótese. Iremos ver com calma. Temos o R2, que você deve ter ouvido falar. É uma saída um pouco mais completa.
O próximo passo é criar previsões dentro da amostra do meu modelo, para testar e ver se está funcionando mesmo. Para fazer isso, pego o resultado da regressão, coloco um til, chamo a variável, que é o fitted.values. Ele vai criar uma nova variável para mim dentro do dataset com os valores previstos dentro da amostra. Depois vamos aprender como prever fora da amostra, que é geralmente nosso objetivo.
Esse era só um susto que eu queria dar, mostrar mais ou menos tudo que vamos ver. Daqui para a frente vamos ver passo a passo com calma cada uma dessas coisas. No próximo vídeo falamos de correlação.
O curso Estatística com R: correlação e regressão possui 153 minutos de vídeos, em um total de 63 atividades. Gostou? Conheça nossos outros cursos de Estatística em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.