Alura > Cursos de Data Science > Cursos de Estatística > Conteúdos de Estatística > Primeiras aulas do curso Análise de experimentos: testes, mapas de cores e análises dos dados.

Análise de experimentos: testes, mapas de cores e análises dos dados.

Introdução à experimentação - Introdução

Boas vindas ao curso Introdução à experimentação: Análise de experimentos aqui da Alura! Meu nome é Vitor Coelho e serei seu instrutor neste treinamento.

Ao longo dos nossos estudos, acompanharemos a personagem Bel, que está montando uma empresa que vende cupcakes. Ela gostaria de entender melhor a própria receita de cupcakes, principalmente a influência da farinha e do chocolate na quantidade total de produtos. Para auxiliarmos nossa personagem, executaremos um experimento desde o seu planejamento, passando pela coleta de dados até a análise dos resultados, obtendo as informações que Bel deseja para aumentar os lucros da sua empresa.

Como ambiente, usaremos o Jupyter, um notebook Python, para realizarmos as análises estatísticas. Aprenderemos a inserir os dados experimentais usando o Pandas; a criar planejamentos fatoriais para entendermos como se relacionam as variáveis farinha, chocolate e quantidade de cupcakes; a criar dataframes com esses dados experimentais, o que facilitará o manuseio das informações que serão analisadas; e a analisar gráficos de modo a entendermos como o sistema está se comportando.

Ao passarmos por esse processo, proporemos um modelo estatístico e uma representação matemática do experimento que nos ajudarão a avaliar os efeitos dos ingredientes na quantidade de cupcakes. Aprenderemos a ajustar esse modelo estatístico aos dados experimentais usando uma biblioteca chamada statsmodels, entenderemos a relação entre experimentos e graus de liberdade de um modelo e aprenderemos a fazer uma análise de significânica estatística - ou seja, verificaremos se determinado fenômeno ou variável realmente influencia na resposta do experimento.

Faremos essa análise de significância por meio de um teste de hipótese, e aprenderemos algumas maneiras de entender e avaliar esse teste, por exemplo o gráfico padronizado de pareto. Também descobriremos como atualizar o modelo a partir de novas informações obtidas a partir dos dados experimentais, usaremos o modelo para obter informações sobre a receita em condições que não foram exploradas durante o experimento, verificaremos se o modelo está representando ou não um sistema real (usando a avaliação de preditos por observados) e exploraremos nosso modelo por meio de um mapa de cores, transmitindo informações de forma rápida e eficaz.

Se interessou e deseja aprender a planejar e executar experimentos? Já no próximo vídeo daremos início ao nosso curso!

Bons estudos!

Introdução à experimentação - O caso de estudo

Antes de planejarmos um experimento, é necessário entendermos o sistema que vamos estudar - ou seja, o nosso caso de estudo. Nesse curso acompanharemos a Bel, uma cozinheira que decidiu abrir uma empresa que vende cupcakes. Na empresa, todos os clientes cadastradores recebem, às sextas-feiras, sacolinhas com cupcakes de diversos sabores.

Como é um empreendimento em fase inicial, a Bel ainda tem muitas dúvidas sobre como passar de uma produção em escala pequena, que distribui apenas para familiares, para uma escala maior e capaz de atender um número bem maior de pessoas. Nesse cenário, a Bel precisa entender melhor a sua receita de modo a tirar mais proveito dela, evitando gastar dinheiro com ingredientes desnecessários. Com esse entendimento, será possível não produzir cupcakes de melhor qualidade, como também um número maior de cupcakes a cada fornada, aumentando seu lucro.

Dentre todos os ingredientes, aqueles que mais geram confusão na Bel são as quantidades de farinha e chocolate. Ela deseja descobrir como esses ingredientes afetam os cupcakes produzidos e, principalmente, elencar qual é o mais importante. Por exemplo, em um cenário no qual falta chocolate, será possível adicionar um pouco mais de farinha e ainda assim produzir a mesma quantidade de cupcakes? Se a farinha estiver cara, será possível compensar com uma maior quantidade de chocolate, mantendo a mesma produção de cupcakes?

Para pensar sobre essas questões, a Bel conversou com alguns amigos que já trabalham com cozinha. O Lucas, que tem uma loja de bolos e já está acostumado a produzir em grandes quantidades, acredita que a farinha é o ingrediente mais importante. Além disso, Lucas afirmou que adiciona 450g de farinha e 200g de chocolate em suas receitas, seguindo essas medidas à risca. Entretanto, ele nunca trabalhou com cupcakes - ou seja, a sua resposta é apenas representativa para bolos.

Já a amiga Ana, por sua vez, é apaixonada por cupcakes e está acostumada a prepará-los há muito tempo, ainda que não trabalhe em larga escala, se limitando a uma produção mais caseira com receita menos "restritas" (com ingredientes a gosto). Para ela, a farinha e o chocolate têm igual importância. No seu método, ela adiciona os ingredientes aos poucos e a olho, o que não ajuda muito o processo da Bel.

Após essas conversas, Bel ainda tem muitas dúvidas em relação ao papel da farinha e do chocolate no resultado final da receita, e ainda precisa de um conhecimento que seja representativo da realidade de trabalho dela - ou seja, ela está trabalhando com cupcakes, e não com bolos; e precisa saber fazê-los em larga escala, e não de modo caseiro.

A ideia é ser capaz de traduzir o seu conhecimento em números, tornando possível entender a sua receita e identificar a relação entre a proporção dos ingredientes (chocolate e farinha) e a quantidade de cupcakes produzidos. Dessa forma, ela conseguirá extrapolar, por exemplo, a quantidade de ingredientes necessária para assar um número maior de cupcakes.

Para atingir esses objetivos e estudar a sua receita, a Bel decidiu realizar um experimento. Neste experimento, ela controlará o sistema, variando a quantidade de farinha e de chocolate, e contabilizará o número de cupcakes produzidos a cada fornada. Com isso, ela garantirá que o sistema controlado é representativo da sua realidade de trabalho - isto é, receitas de cupcakes nas quantidades que ela precisa produzir em sua empresa. Além disso, ela coletará os dados necessários para entender as relações entre as variáveis e até mesmo prever os resultados.

Antes de começar a desenvolver o experimento (ou a "botar a mão na massa"), a Bel precisa planejar esses experimentos, do contrário perderá dinheiro e tempo. No próximo vídeo começaremos a entender como ela pode fazer isso!

Introdução à experimentação - Planejar é preciso

Vimos anteriormente que Bel decidiu realizar um experimento para entender melhor a sua receita de cupcakes (o sistema a ser analisado), e agora precisamos refletir sobre como tal experimento será conduzido.

A ideia é variarmos a quantidade de farinha e chocolate, quantificando, ao final de cada fornada, o número de cupcakes por exemplo. Por exemplo, vamos supor a utilização de 500 gramas de farinha e 100 gramas de chocolate. Ao final da primeira fornada, ela anota que foi produzida uma porção de cupcakes. Repetindo o experimento com 1000 gramas de farinha e 300 de chocolate, ela obteve 2 porções. A receita foi repetida várias vezes, enquanto Bel considerou necessário (que podemos chamar de "N vezes").

Após terminada essa etapa de coleta de dados, a ideia é utilizar métodos estatísticos para obter conclusões a partir deles. Antes de prosseguirmos para essa análise, é importante entendermos e planejarmos o experimento.

Existem motivos para fazer esse planejamento.

Ingredientes da Receita de Cupcakes (rende 12 porções):

430g de farinha

130g de chocolate

4 ovos

150g de manteiga

200g de açúcar

5g de fermento

Por exemplo, imagine que Bel deseja colocar em prática quatro ensaios. No primeiro, ela utiliza 500 gramas de farinha e 100 gramas de chocolate, o que lhe rende 19 cupcakes. No segundo ensaio, ela utiliza 500 gramas de farinha e 500 de chocolate, mas percebe que não tem a quantidade de ovos exigida na receita, adicionando apenas 2. Mesmo assim, a receita rendeu 22 porções.

Para o terceiro ensaio, além de 1000 gramas de farinha e 300 de chocolate, ela já possuía a quantidade correta de ovos, mas precisou abandonar a cozinha para comparecer a um compromisso no banco e não conseguiu contar a quantidade de cupcakes produzidos, pois já tinham sido devorados pelos sobrinhos. Para tentar resolver esse problema, ela decide somar a massa total da receita, algo em torno de 1700 gramas, para eventualmente comparar com os outros ensaios.

No quarto e último ensaio, Bel percebe que não tinha mais chocolate disponível, sendo obrigada a utilizar 750 gramas de farinha e 250 gramas de cenoura. Ao final desse processo, obteve 26 porções.

Note que a Bel realizou esses experimentos sem planejá-los muito bem, refletindo sobre eles à medida em que iniciava um determinado ensaio. Mas será que eles têm validade e é possível tirar conclusões sobre esses resultados?

Analisando criticamente o primeiro ensaio, os dados parecem completamente adequados seguindo a receita de cupcakes. Entretanto, no segundo, há uma variação na quantidade de ovos recomendada na receita base. Quando isso acontece, não é possível distinguirmos o efeito da variação da quantidade de farinha e de chocolate ou da quantidade de ovos. Desta forma, parece difícil entendermos o papel dos ingredientes que estamos analisando na receita em si, descartando o uso deste ensaio.

No terceiro ensaio temos uma situação interessante: ainda que os ingredientes tenham sido usados corretamente, temos uma variação no resultado. Ao invés de medir a quantidade de cupcakes, a Bel anotou a massa total da receita, o que não é o objetivo do experimento. Sendo assim, precisaremos descartar também este ensaio.

Por fim, no quarto ensaio a Bel comete um erro bastante grave. Ao substituir o chocolate da receita, ela acabou alterando completamente o sistema que estava analisando: ao invés de uma receita de cupcake de chocolate, ela obteve dados de uma receita de cupcake de cenoura. Portanto, esse ensaio será descartado.

Dos quatro ensaios feitos pela Bel, apenas um trouxe resultados que poderíamos analisar. Ou seja, sem o planejamento dos ensaios, ela acabou desperdiçando tempo e dinheiro. O planejamento é importante justamente para evitar problemas como esses.

Existem dois passos essenciais no planejamento de um experimento. O primeiro deles é ter um objetivo claro: que questão desejamos responder ao realizar um experimento? A Bel, por exemplo, quer entender como a variação da quantidade de farinha e chocolate afeta a produção de cupcakes. Isso significa que ela não quer saber a influência da quantidade de ovos, ou o impacto da variação dos ingredientes na massa final da receita.

Ter esse objetivo defininido ao executar o experimento evita erros, principalmente divergência em relação às finalidades de nossas análises. Ao final do experimento, teremos a certeza de que os dados coletados terão a possibilidade de responder às perguntas que guiaram os ensaios.

O segundo passo de qualquer planejamento é entender quais serão as variáveis manipuladas e a resposta. No caso da Bel, as variáveis manipuladas são a farinha e o chocolate. Os outros elementos, como quantidade de ovos, manteiga e temperatura do forno, devem permanecer obrigatoriamente constantes, de modo que os resultados obtidos não sejam influenciados por sua variação.

A resposta é aquilo que desejamos analisar por meio das estatísticas, que nesse caso é o número de cupcakes produzidos. Ter esses conceitos bem definidos também nos ajuda a não perder tempo e dinheiro medindo coisas desnecessárias.

Ao fazermos um planejamento dos experimentos, evitamos uma série de erros que podem surgir da má execução dos ensaios. Sir Ronald Fisher, um grande estatístico inglês, inclusive utilizava a seguinte frase para demonstrar a importância do planejamento:

Chamar um estatístico depois que o experimento foi feito pode ser o mesmo que pedir para ele fazer um exame post-mortem. Talvez ele consiga dizer do que foi que o experimento morreu.

Devemos nos planejar, freando um pouco a ansiedade de obter dados e respostas rapidamente. Planejar o experimento também significa que os dados utilizados na fase de análise e estatística terão qualidade adequada para responder às nossas perguntas. No próximo vídeo aprenderemos a planejar a coleta de dados.

Sobre o curso Análise de experimentos: testes, mapas de cores e análises dos dados.

O curso Análise de experimentos: testes, mapas de cores e análises dos dados. possui 178 minutos de vídeos, em um total de 50 atividades. Gostou? Conheça nossos outros cursos de Estatística em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Estatística acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas