Imagine utilizar as Inteligências Artificiais (IAs) a nosso favor para desenvolver um projeto de Data Science?
A ideia é otimizar e acelerar o processo do projeto para exploração, visualização de dados e até a apresentação desse projeto desenvolvido em Python, mesmo que não possuamos um conhecimento avançado nessa linguagem.
É precisamente isso que faremos neste curso de IA para potencializar a produtividade em Data Science.
Meu nome é Mirla e sou instrutora da Alura.
Audiodescrição: Mirla Costa é uma mulher branca, de cabelos cacheados e pretos, abaixo da altura dos ombros. Usa um óculos de grau com armação redonda, piercing no septo e aparelho dental. Está com uma camiseta na cor vinho e colar com pingente de lua. Ao fundo, parece branca com iluminação verde e duas prateleiras com livros e decorações.
Durante nossa jornada, somos cientistas de dados em uma empresa de consultoria e energia. Temos um cliente, a Boltfunds, uma empresa de investimentos no setor energético que nos envia dados para análise.
Dispomos de um curto período para realizar esse projeto e precisaremos:
Para o desenvolvimento desse projeto, vamos utilizar prompts pré-criados e testados nas IAs que utilizaremos neste curso. Esses prompts estarão disponíveis no notebook do curso no Google Colab disponível para download e poderão ser testados durante o curso.
No entanto, é importante lembrar que, ainda que utilizemos os mesmos prompts, o resultado pode variar um pouco devido à aleatoriedade dos chatbots quando você utilizar na sua conta.
Para que você possa aproveitar ao máximo este curso, é recomendável que já tenha algum conhecimento de Python, assim como das bibliotecas Pandas, Matplotlib, Seaborn e Plotly.
Vamos começar?
Somos cientistas de dados de uma empresa especializada em consultoria em energia elétrica para companhias do setor energético. A nossa empresa fornece informações sobre o mercado e investimentos.
Recentemente, recebemos uma demanda de um cliente, a Boltfunds, uma empresa de investimentos no mercado energético. Ela nos forneceu dados que relacionam consumo e produção de energia elétrica por países ao redor do mundo.
A Boltfunds solicitou uma análise desses dados para entender padrões de produção, de consumo e para identificar tendências de mercado para guiar a tomada de decisões.
O resultado final desse trabalho deve ser apresentado em um slide em formato de apresentação oral para a diretoria da Boltfunds. A nível de empresa, foi estipulado um curto prazo para realizar essa demanda.
Os arquivos fornecidos pela Boltfunds que serão utilizados em nosso projeto estão disponíveis no notebook do curso no Google Colab. Para acessá-lo, você pode baixar o notebook diretamente nas atividades desta aula.
Caso você não queira fazer o download do notebook, você pode copiar as URLs que também estarão disponíveis nas atividades.
Além disso, a diretoria da Boltfunds nos informou que os dados fornecidos contêm informações de tempo e de diferentes países. Contudo, nossa análise se concentrará apenas nos dados brutos, sem realizar análises históricas ou geopolíticas.
Diante desse contexto, enfrentamos dois problemas. Primeiro, a nossa equipe de dados não possui um conhecimento avançado em Python, embora tenhamos familiaridade com algumas bibliotecas e entendemos como funciona essa linguagem.
Nosso domínio maior é com a linguagem R. Como o projeto exige o uso de Python, este se torna um desafio.
Segundo, temos um curto período para a realização do projeto. Por isso, não podemos perder tempo tentando criar códigos para fazer o projeto de estudos dos dados.
Para solucionar esses problemas, vamos contar com o auxílio de Inteligências Artificiais (IAs) que nos ajudarão na criação dos códigos necessários.
A primeira inteligência artificial que usaremos é o Bard, da Google. Embora seja uma inteligência artificial ainda em seus primeiros estágios, se adequará perfeitamente à etapa inicial do projeto.
Vamos também utilizar prompts, que serão enviados para essas IAs. Essas prompts já foram previamente criadas e testadas, otimizando os resultados das IAs.
É importante lembrar que, ao executar as prompts disponíveis em sua conta, os resultados podem ser ligeiramente diferentes dos nossos, devido à aleatoriedade inerente às IAs.
Agora, vamos acessar o notebook para começar o projeto.
Com o Google Colab aberto, já conseguimos visualizar o notebook de análise para a Boltfunds.
Primeiro, devemos fazer a importação dos dados, já que para os estudar, precisamos tê-los em mãos. As URLs que dão acesso a esses dados são as seguintes:
url_resumo_mundial = 'https://raw.githubusercontent.com/alura-cursos/IA-produtividade-DS/main/Dados/Resumo_mundial.csv'
url_producao = 'https://github.com/alura-cursos/IA-produtividade-DS/raw/main/Dados/Producao_total.csv'
Temos dois arquivos CSV, o primeiro se chama Resumo_mundial.csv
e o segundo se chama Producao_total.csv
. Ambos estão disponíveis no GitHub.
A string da URL de Resumo_mundial.csv
está armazenado na variável url_resumo_mundial
. A outra, que é Producao_total.csv
, está em url_producao
.
Agora que entendemos a problemática, podemos desenvolver nosso primeiro código com Bard.
Nós temos uma instrução (prompt) que solicita a criação de um código para importar esses dados. A prompt em questão é:
Quero que você atue como um cientista de dados e codifique para mim. Estou desenvolvendo um projeto de Data Science focado no tema de consumo e produção de energia elétrica pelo mundo.
Tenho as url de 2 datasets no formato csv salvas no meu notebook colab. As variáveis são as seguintes: "url_resumo_mundial" e "url_producao"
Escreva o código em Python para importar os dados.
Portanto, vamos copiar esse prompt com "Ctrl + C" e acessar o Bard. Após fazer login em sua conta, você deve iniciar uma nova conversa.
Na caixa de texto para digitar uma pergunta ou comando, na parte inferior, vamos colar a instrução com "Ctrl + V" e pressionar "Enter" para enviar.
Claro, posso te ajudar com isso. Aqui está o código em Python para importar os dados:
import pandas as pd
# Importar o dataset de resumo mundial
df_resumo_mundial = pd.read_csv(url_resumo_mundial, sep=',')
# Importar o dataset de produção
df_producao = pd.read_csv(url_producao, sep=',')
# Visualizar o primeiro conjunto de dados
print(df_resumo_mundial.head())
# Visualizar o segundo conjunto de dados
print(df_producao.head())
A resposta inicial do Bard já conta com o código de import pandas as pd
que serve para importar a biblioteca Pandas.
Em cada etapa, o Bard adiciona comentários explicativos. Além de importar os datasets, ele exibe uma visualização dos dados. Essa importação considera que nossos dados são separados por vírgulas, mesmo que essa informação não tenha sido especificada.
Nós também podemos acessar outros rascunhos, que são outras respostas possíveis que o Bard fornece. Então, apertamos o botão "Acessar outros rascunhos" no canto superior direito.
Vamos mudar para o rascunho 2 que contém uma resposta parecida com o primeiro rascunho.
import pandas as pd
# Importar os dados do resumo mundial
df_resumo_mundial = pd.read_csv(url_resumo_mundial)
# Importar os dados da produção
df_producao = pd.read_csv(url_producao)
# Combinar os dois datasets
df_resumo_mundial.merge(df_producao, on='Country')
# Visualizar as primeiras linhas do dataset
df.head()
O Bard também realiza a importação dos dados com pd.read_csv()
. Apesar de não ter a separação dos dados, temos um merge()
, que vai combinar esses dois conjuntos de dados. Isso, no entanto, não é o que solicitamos.
O rascunho 3 faz a importação de Pandas da mesma forma que os rascunhos 1 e 2. Depois, ele executa read_csv()
diretamente com a URL. Depois, inclui dois códigos para visualizar as primeiras linhas de cada conjunto de dados.
import pandas as pd
# Importar o dataset de resumo mundial
df_resumo = pd.read_csv(url_resumo_mundial)
# Importar o dataset de produção
df_producao = pd.read_csv(url_producao)
# Visualizar as primeiras linhas do dataset de resumo mundial
df_resumo.head()
# Visualizar as primeiras linhas do dataset de produção
df_producao.head()
Este código é o mais adequado para o nosso propósito, então vamos copiá-lo.
No notebook, vamos colar esse código em uma célula vazia. Na primeira parte, não precisamos modificar nada em import pandas as pd
.
Depois, onde importamos os datasets, gostaríamos de chamá-los simplesmente de resumo_mundial
e producao
. No momento, não precisamos visualizar os resultados, só precisamos importar os dados, então vamos remover os últimos códigos da nossa célula.
import pandas as pd
# Importar o dataset de resumo mundial
resumo_mundial = pd.read_csv(url_resumo_mundial)
# Importar o dataset de produção
producao = pd.read_csv(url_producao)
Antes de executar essa célula com "Shift + Enter", devemos executar a célula que contém as URLs para acessar os arquivos CSV. Feito isso, vamos executar a segunda célula para importar os dados.
Agora que temos os dados e entendemos o contexto, podemos começar nossa análise.
Vamos iniciar nossas análises a partir do dataframe resumo_mundial
, que contém informações de produção, consumo, exportação do mundo inteiro. Para realizar esses códigos de exploração, que nos permitirão entender melhor nossos dados, vamos novamente utilizar o Bard.
resumo_mundial
Na seção do notebook para a exploração de resumo_mundial
, já temos um prompt a seguir:
Agora vamos começar a trabalhar com o dataframe "resumo_mundial", escreva um código que permita executar a exploração desses dados.
Vamos copiar essa prompt mais curta, colá-la e executá-la no Bard.
Claro, aqui está o código em Python para explorar os dados do dataframe "resumo_mundial":
import pandas as pd
# Importar o dataset de resumo mundial
resumo_mundial = pd.read_csv(url_resumo_mundial)
# Exibir as primeiras 5 linhas do dataframe
resumo_mundial.head()
# Exibir as últimas 5 linhas do dataframe
resumo_mundial.tail()
# Exibir as estatísticas descritivas do dataframe
resumo_mundial.describe()
# Exibir o tipo de dados de cada coluna do dataframe
resumo_mundial.dtypes
# Exibir o número de linhas e colunas do dataframe
resumo_mundial.shape
# Exibir os nomes das colunas do dataframe
resumo_mundial.columns
# Exibir os valores únicos de cada coluna do dataframe
resumo_mundial.nunique()
# Exibir a correlação entre as colunas do dataframe
resumo_mundial.corr()
# Exibir o gráfico de barras dos valores únicos da coluna "país"
resumo_mundial ["país"].value_counts().plot(kind="bar")
# Exibir o gráfico de linhas dos valores da coluna "consumo" ao longo do tempo
resumo_mundial ["consumo"].plot(kind="line")
# Exibir o gráfico de dispersão dos valores das colunas "consumo" e "produção"
resumo_mundial[["consumo", "produção"]].plot(kind="scatter")
O Bard prontamente nos retorna um código para explorar os dados. A primeira parte do código importa o Pandas como pd
e importa os dados do resumo_mundial
. Vamos ignorar esse trecho, pois já os realizamos no vídeo anterior.
Agora, vamos analisar as etapas sugeridas para a exploração dos dados. Primeiramente, temos um comando para exibir as cinco primeiras linhas do dataframe, utilizando resumo_mundial.head()
.
Vamos copiar este código e seu comentário correspondente para colar no nosso notebook.
# Exibir as primeiras 5 linhas do dataframe
resumo_mundial.head()
# | data | producao_total_de_combustiveis_fosseis | producao_de_energia_nuclear | producao_total_de_energia_renovavel | producao_total_de_energia_primaria | importacoes_de_energia_primaria | exportacoes_de_energia_primaria | importacoes_liquidas_de_energia_primaria | variacao_nas_reservas_de_energia_primaria_e_outros | consumo_total_de_combustiveis_fosseis | consumo_de_energia_nuclear | consumo_total_de_energia_renovavel | consumo_total_de_energia_primaria |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1973-01-31 | 4.932632 | 0.068103 | 0.403981 | 5.404715 | 1.173080 | 0.125781 | 1.047299 | 0.771858 | 6.747651 | 0.068103 | 0.403981 | 7.223873 |
1 | 1973-02-28 | 4.729582 | 0.064634 | 0.360900 | 5.155115 | 1.168005 | 0.120883 | 1.047122 | 0.390129 | 6.163095 | 0.064634 | 0.360900 | 6.592366 |
2 | 1973-03-31 | 4.946902 | 0.072494 | 0.400161 | 5.419556 | 1.309473 | 0.139950 | 1.169523 | -0.067640 | 6.044647 | 0.072494 | 0.400161 | 6.521439 |
3 | 1973-04-30 | 4.716271 | 0.064070 | 0.380470 | 5.160812 | 1.085169 | 0.194185 | 0.890984 | -0.110067 | 5.493184 | 0.064070 | 0.380470 | 5.941729 |
4 | 1973-05-31 | 4.956995 | 0.062111 | 0.392141 | 5.411246 | 1.162804 | 0.196775 | 0.966029 | -0.305335 | 5.613551 | 0.062111 | 0.392141 | 6.071940 |
Após apertar "Shift + Enter" para executar a célula, é retornado as primeiras cinco linhas.
Antes de analisarmos, vamos explorar o comando que exibe as últimas cinco linhas do nosso dataframe, usando resumo_mundial.tail()
. Copiamos as linhas de código e colar em outra célula do notebook.
# Exibir as últimas 5 linhas do dataframe
resumo_mundial.tail()
# | data | producao_total_de_combustiveis_fosseis | producao_de_energia_nuclear | producao_total_de_energia_renovavel | producao_total_de_energia_primaria | importacoes_de_energia_primaria | exportacoes_de_energia_primaria | importacoes_liquidas_de_energia_primaria | variacao_nas_reservas_de_energia_primaria_e_outros | consumo_total_de_combustiveis_fosseis | consumo_de_energia_nuclear | consumo_total_de_energia_renovavel | consumo_total_de_energia_primaria |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
594 | 2022-07-31 | 6.921426 | 0.718109 | 1.132400 | 8.771935 | 1.907862 | 2.294320 | -0.386458 | 0.199327 | 6.736891 | 0.718109 | 1.111161 | 8.584805 |
595 | 2022-08-31 | 7.047525 | 0.718526 | 1.044026 | 8.810077 | 1.821828 | 2.327090 | -0.505262 | 0.225628 | 6.755154 | 0.718526 | 1.036589 | 8.530444 |
596 | 2022-09-30 | 6.915201 | 0.664673 | 0.978647 | 8.558521 | 1.702048 | 2.219831 | -0.517784 | -0.257997 | 6.144280 | 0.664673 | 0.960694 | 7.782741 |
597 | 2022-10-31 | 7.126618 | 0.614741 | 1.019209 | 8.760568 | 1.767733 | 2.322475 | -0.554743 | -0.394651 | 6.179721 | 0.614741 | 1.006859 | 7.811175 |
598 | 2022-11-30 | 6.875368 | 0.647029 | 1.097519 | 8.619915 | 1.761697 | 2.305923 | -0.544226 | 0.210202 | 6.553431 | 0.647029 | 1.076469 | 8.285891 |
Uma observação inicial que podemos fazer é em relação à coluna de data
. Percebemos que ela começa em 1973, iniciando em janeiro desse ano e continuando mês a mês.
Observando as primeiras e últimas cinco linhas deste dataframe, notamos que os dados estão atualizados até o ano de 2022. Isso indica que possuímos uma base de dados coletados mensalmente, desde 1973 até 2022, totalizando 50 anos de dados.
Retornando ao Bard, é sugerida a exibição das estatísticas descritivas do dataframe usando resumo_mundial.describe()
. Copiamos este código e o executamos no notebook.
# Exibir as estatísticas descritivas do dataframe
resumo_mundial.describe()
Statistic | producao_total_de_combustiveis_fosseis | producao_de_energia_nuclear | producao_total_de_energia_renovavel | producao_total_de_energia_primaria | importacoes_de_energia_primaria | exportacoes_de_energia_primaria | importacoes_liquidas_de_energia_primaria | variacao_nas_reservas_de_energia_primaria_e_outros | consumo_total_de_combustiveis_fosseis | consumo_de_energia_nuclear | consumo_total_de_energia_renovavel | consumo_total_de_energia_primaria |
---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 599 | 599 | 599 | 599 | 599 | 599 | 599 | 599 | 599 | 599 | 599 | 599 |
mean | 5.034634 | 0.519567 | 0.593709 | 6.147909 | 1.873459 | 0.611704 | 1.261755 | 0.031835 | 6.321391 | 0.519567 | 0.591620 | 7.441499 |
std | 0.610126 | 0.202697 | 0.193351 | 0.895076 | 0.561286 | 0.544532 | 0.724907 | 0.476652 | 0.708356 | 0.202697 | 0.189229 | 0.946882 |
min | 3.676065 | 0.062111 | 0.304328 | 4.306800 | 0.710558 | 0.056798 | -0.554743 | -0.894627 | 4.783910 | 0.062111 | 0.304328 | 5.435627 |
25% | 4.683559 | 0.328635 | 0.467414 | 5.590289 | 1.447091 | 0.310775 | 0.856081 | -0.327821 | 5.798086 | 0.328635 | 0.467414 | 6.659050 |
50% | 4.831601 | 0.594293 | 0.527479 | 5.906173 | 1.848642 | 0.373346 | 1.200957 | -0.081028 | 6.338503 | 0.594293 | 0.527257 | 7.617372 |
75% | 5.087384 | 0.681056 | 0.685252 | 6.290192 | 2.281205 | 0.680119 | 1.759529 | 0.324711 | 6.789340 | 0.681056 | 0.683567 | 8.111785 |
max | 7.126618 | 0.780456 | 1.218790 | 8.810077 | 3.149640 | 2.386337 | 2.741692 | 1.551345 | 8.096323 | 0.780456 | 1.199383 | 9.664299 |
Isso nos retorna uma tabela com análises estatísticas, que pode ser útil para comparações futuras.
Continuando com as sugestões do Bard, é indicado exibir o tipo de dados de cada coluna no dataframe utilizando resumo_mundial.dtypes
. Novamente vamos copiar e executá-la no notebook.
# Exibir o tipo de dados de cada coluna do dataframe
resumo_mundial.dtypes
Coluna | Tipo |
---|---|
data | object |
producao_total_de_combustiveis_fosseis | float64 |
producao_de_energia_nuclear | float64 |
producao_total_de_energia_renovavel | float64 |
producao_total_de_energia_primaria | float64 |
importacoes_de_energia_primaria | float64 |
exportacoes_de_energia_primaria | float64 |
importacoes_liquidas_de_energia_primaria | float64 |
variacao_nas_reservas_de_energia_primaria_e_outros | float64 |
consumo_total_de_combustiveis_fosseis | float64 |
consumo_de_energia_nuclear | float64 |
consumo_total_de_energia_renovavel | float64 |
consumo_total_de_energia_primaria | float64 |
dtype: object
Nesse retorno, conseguimos observar que apenas a coluna de data
está como object (objeto). Então, ela é do tipo string. Isso é relevante porque, quando tratamos dados de tempo, precisamos transformá-los para um tipo temporal. Não é possível utilizar um objeto de texto.
Todas as outras colunas são do tipo float, ou seja, são numéricas.
Retornando agora para o Bard, ele propõe mostrar o número de linhas e colunas do dataframe, para isso, ele utiliza o método shape
.
# Exibir o número de linhas e colunas do dataframe
resumo_mundial.shape
(599, 13)
Depois de executar o comando, são retornadas 13 colunas e 599 dados. Faz sentido, considerando que nós sabemos que são aproximadamente 50 anos coletados, com exceção de um mês, pois observamos que não foi coletado no mês de dezembro de 2022.
São 599 amostras coletadas mensalmente, de 1973 até 2022.
O Bard também sugere exibir o nome das colunas do dataframe, para isso, usamos o método columns
.
# Exibir os nomes das colunas do dataframe
resumo_mundial.columns
Isso pode ser útil em algum momento, caso queiramos listar quais são as colunas do nosso dataframe.
Index(['data', 'producao_total_de_combustiveis_fosseis',
'producao_de_energia_nuclear', 'producao_total_de_energia_renovavel',
'producao_total_de_energia_primaria', 'importacoes_de_energia_primaria',
'exportacoes_de_energia_primaria',
'importacoes_liquidas_de_energia_primaria',
'variacao_nas_reservas_de_energia_primaria_e_outros',
'consumo_total_de_combustiveis_fosseis', 'consumo_de_energia_nuclear',
'consumo_total_de_energia_renovavel',
'consumo_total_de_energia_primaria'],
dtype='object')
Seguindo as sugestões do Bard, ele propõe exibir os valores únicos de cada coluna do dataframe com método nunique()
.
# Exibir os valores únicos de cada coluna do dataframe
resumo_mundial.nunique()
Coluna | Non-Null Count |
---|---|
data | 599 |
producao_total_de_combustiveis_fosseis | 599 |
producao_de_energia_nuclear | 598 |
producao_total_de_energia_renovavel | 599 |
producao_total_de_energia_primaria | 599 |
importacoes_de_energia_primaria | 599 |
exportacoes_de_energia_primaria | 599 |
importacoes_liquidas_de_energia_primaria | 599 |
variacao_nas_reservas_de_energia_primaria_e_outros | 599 |
consumo_total_de_combustiveis_fosseis | 599 |
consumo_de_energia_nuclear | 598 |
consumo_total_de_energia_renovavel | 599 |
consumo_total_de_energia_primaria | 599 |
dtype: object
Aparentemente, não temos dados categóricos, visto que a quantidade de dados únicos em cada coluna é a mesma quantidade de linhas - com exceção, de producao_de_energia_nuclear
e consumo_de_energia_nuclear
, que possuem dois valores que são iguais, porém isso não os torna categóricos.
Finalmente, o Bard sugere mostrar a correlação entre as colunas do dataframe, utilizando o método corr()
.
# Exibir a correlação entre as colunas do dataframe
resumo_mundial.corr()
- | producao_total_de_combustiveis_fosseis | producao_de_energia_nuclear | producao_total_de_energia_renovavel | producao_total_de_energia_primaria | importacoes_de_energia_primaria | exportacoes_de_energia_primaria | importacoes_liquidas_de_energia_primaria | variacao_nas_reservas_de_energia_primaria_e_outros | consumo_total_de_combustiveis_fosseis | consumo_de_energia_nuclear | consumo_total_de_energia_renovavel | consumo_total_de_energia_primaria |
---|---|---|---|---|---|---|---|---|---|---|---|---|
producao_total_de_combustiveis_fosseis | 1.000000 | 0.411684 | 0.851062 | 0.958719 | 0.051540 | 0.925480 | -0.655291 | -0.005999 | 0.189429 | 0.411684 | 0.847192 | 0.401573 |
producao_de_energia_nuclear | 0.411684 | 1.000000 | 0.609987 | 0.638849 | 0.779024 | 0.515903 | 0.215655 | 0.165886 | 0.686630 | 1.000000 | 0.613568 | 0.852501 |
producao_total_de_energia_renovavel | 0.851062 | 0.609987 | 1.000000 | 0.934277 | 0.237929 | 0.941256 | -0.522822 | 0.096823 | 0.265070 | 0.609987 | 0.999765 | 0.531641 |
producao_total_de_energia_primaria | 0.958719 | 0.638849 | 0.934277 | 1.000000 | 0.262946 | 0.951008 | -0.510778 | 0.054393 | 0.341877 | 0.638849 | 0.932399 | 0.581630 |
importacoes_de_energia_primaria | 0.051540 | 0.779024 | 0.237929 | 0.262946 | 1.000000 | 0.140799 | 0.668523 | -0.010213 | 0.721493 | 0.779024 | 0.242078 | 0.755221 |
exportacoes_de_energia_primaria | 0.925480 | 0.515903 | 0.941256 | 0.951008 | 0.140799 | 1.000000 | -0.642156 | 0.068148 | 0.188949 | 0.515903 | 0.937477 | 0.441663 |
importacoes_liquidas_de_energia_primaria | -0.655291 | 0.215655 | -0.522822 | -0.510778 | 0.668523 | -0.642156 | 1.000000 | -0.059099 | 0.416709 | 0.215655 | -0.516772 | 0.252991 |
variacao_nas_reservas_de_energia_primaria_e_outros | -0.005999 | 0.165886 | 0.096823 | 0.054393 | -0.010213 | 0.068148 | -0.059099 | 1.000000 | 0.608631 | 0.165886 | 0.092878 | 0.509563 |
consumo_total_de_combustiveis_fosseis | 0.189429 | 0.686630 | 0.265070 | 0.341877 | 0.721493 | 0.188949 | 0.416709 | 0.608631 | 1.000000 | 0.686630 | 0.265118 | 0.948572 |
consumo_de_energia_nuclear | 0.411684 | 1.000000 | 0.613568 | 0.638849 | 0.779024 | 0.515903 | 0.215655 | 0.165886 | 0.686630 | 1.000000 | 0.613568 | 0.852501 |
consumo_total_de_energia_renovavel | 0.847192 | 0.613568 | 0.999765 | 0.932399 | 0.242078 | 0.937477 | -0.516772 | 0.092878 | 0.265118 | 0.613568 | 1.000000 | 0.532513 |
consumo_total_de_energia_primaria | 0.401573 | 0.852501 | 0.531641 | 0.581630 | 0.755221 | 0.441663 | 0.252991 | 0.509563 | 0.948572 | 0.852501 | 0.532513 | 1.000000 |
Após apertar "Shift + Enter", é retornado um dataframe que tem os valores de correlação entre as colunas de resumo_mundial
. Essa visualização não é tão interessante para fazermos uma análise agora.
Os outros códigos que Bard nos dá, lidam com criação de gráficos. Mas não vamos utilizá-los, até porque o Bard não sabe quais são as colunas que existem dentro do dataframe resumo_mundial
, então o código não seria aplicável.
Portanto, vamos ignorar essas três últimas sugestões
Finalizamos essa primeira análise mais superficial, mas ainda precisamos fazer a análise da correlação das colunas, o que faremos no próximo vídeo.
O curso Python com IAs: acelerando a produtividade em data science possui 126 minutos de vídeos, em um total de 49 atividades. Gostou? Conheça nossos outros cursos de IA para Dados em Inteligência Artificial, ou leia nossos artigos de Inteligência Artificial.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.