Olá! Sou o Pedro Moura e serei seu instrutor neste curso sobre Metadados!
Audiodescrição: Pedro é uma pessoa de pele clara, olhos e cabelos castanhos escuros e cabelo bastante curto. Usa óculos de grau quadrados e uma camiseta verde-escura básica. Ao fundo, um ambiente iluminado por uma luz esverdeada, com armários e mesas com enfeites e decorações.
Este curso é voltado para pessoas que desejam saber mais sobre a disciplina de governança de dados.
Vamos aprender o que são metadados, quais são os tipos de metadados e para que eles servem.
Além disso, vamos aprender a gerir metadados na prática com a linguagem de programação Python.
Por isso, recomendamos que você tenha conhecimentos básicos em Python e manipulação de dados.
Então, vamos aprender sobre metadados?!
Para este curso, vamos imaginar um cenário em que somos responsáveis pelo Laboratório de Tecnologia da Informação de uma universidade. Nosso principal papel é receber dados de diversas pessoas pesquisadoras e professoras dessa universidade e trazê-los para dentro do laboratório, garantindo que eles sejam facilmente encontrados, acessados e interpretados pelas pessoas pesquisadoras que vão utilizá-los em suas pesquisas e trabalhos acadêmicos.
Mas, o que isso tem a ver com metadados, objeto central do nosso curso?
Vamos entender de forma mais prática. Para isso, vamos para o nosso ambiente de desenvolvimento.
Para este curso, usaremos o Google Colaboratory como ambiente de desenvolvimento, porque ele nos permite trabalhar com dados de forma interativa, utilizando a linguagem Python, sem a necessidade de grandes configurações.
Na atividade Preparando o Ambiente desta aula, você encontrará a versão de um arquivo do Colab (também chamado de notebook) com as instruções que vamos seguir ao longo do curso, onde colocaremos nossos códigos a cada aula. Você também encontrara alguns outros arquivos importantes para o desenvolvimento do nosso projeto.
Já com o nosso notebook do curso de metadados aberto, a primeira coisa que precisamos fazer é trazer os dados que vamos usar no decorrer do curso para esse arquivo.
Para isso, vamos expandir aba "Arquivos" no menu lateral de ferramentas, à esquerda da tela. Aberta a aba de arquivos, vamos clicar no primeiro ícone no canto superior esquerdo, "Fazer upload para o armazenamento da sessão".
Quando trabalhamos com o Google Colaboratory, utilizamos o espaço de armazenamento da nuvem do Google, e por isso não trabalhamos com arquivos de forma permanente. Dessa forma, toda vez que você abrir o Colab ou interromper o seu funcionamento, será necessário subir novamente os dados. Mas não se preocupe, porque eles não são muito pesados, então isso não será um problema!
Aberto o explorador de arquivos da máquina, vamos selecionar os três arquivos com que trabalharemos nesse curso (e que você deve ter baixado na sua máquina na atividade Preparando o Ambiente):
20240314_225158.jpg
dataset.txt
results.parquet
Com os três selecionados, clicamos em "Abrir".
Com isso, o upload dos nossos dados para o nosso ambiente de desenvolvimento será feito. Assim que esse processo acabar, vamos poder interagir com esses dados por meio de código.
Antes de seguir adiante, vamos voltar para a questão que nos trouxe até aqui: o que metadados têm a ver com esse trabalho que vamos desenvolver no laboratório? Vamos descobrir no próximo vídeo!
No último vídeo, entendemos qual será a nossa preocupação durante o curso como responsáveis de TI de um laboratório de uma faculdade. Nosso principal objetivo é garantir que os dados utilizados pelas pessoas pesquisadoras dentro do laboratório serão facilmente encontrados e acessíveis. A pergunta que ficou para ser respondida neste vídeo é: o que esse objetivo tem a ver com metadados?
Para abordar isso de uma forma um pouco mais prática, primeiro vamos analisar um conjunto de dados sem nenhum metadado. Para isso, vamos ao código.
A primeira coisa que faremos no código será importar a biblioteca Pandas, que será usada para manipularmos os dados. Para isso, escrevemos o seguinte código na primeira célula do nosso notebook:
# Importando bibliotecas
import pandas as pd
Para rodar a linha de código, pressionamos "Enter".
Feito isso, vamos trabalhar primeiramente com o nosso arquivo PARQUET. Vamos usar o seguinte código para lê-lo: df = pd.read_parque()
. Entre os parênteses, precisamos passar o caminho do nosso arquivo entre aspas simples.
Isso é algo bastante simples de fazer no Google Colab. Basta retornar à aba de Arquivos no canto esquerdo e, passando o cursor por cima do arquivo desejado (results.parquet)
, clicaremos no menu de três pontos à direita do nome do arquivo. Depois clicamos em "Copiar caminho".
Com isso, trouxemos para a nossa área de transferência o caminho para o nosso arquivo dentro dessa sessão. Dessa forma, garantimos que não teremos problemas em relação a caminhos. Vamos colar essa informação entre os parênteses e aspas usando o atalho "Ctrl + V".
# Lendo o arquivo PARQUET
df = pd.read_parquet('/content/results.parquet')
Podemos executar o código acima para atribuir nossos dados ao dataframe df
.
Antes de consultar esses dados, vamos retirar toda a informação de metadados deles. Para isso, atribuímos a df.columns
um array de sete aspas vazias, separadas por vírgulas:
# Removendo os nomes das colunas do dataframe
df.columns = ['','','','','','','']
Com o código acima, zeramos as colunas do nosso dataframe, porque isso também é uma informação de metadado.
Também vamos remover o índice das linhas do nosso dataframe. Para isso, executamos:
# Removendo o índice das linhas do dataframe
df.head(15).style.hide(axis='index')
Rodando o código acima, visualizamos os dados sem os seus metadados no dataframe:
Resultado (parcialmente transcrito)
. | . | . | . | . | . | . |
---|---|---|---|---|---|---|
2012 | 2012-03-10 05:00:00+00:00 | Gamba Osaka | Vissel Kobe | 2 | 3 | A |
2012 | 2012-03-10 05:00:00+00:00 | Sanfrecce Hiroshima | Urawa Reds | 1 | 0 | H |
2012 | 2012-03-10 05:00:00+00:00 | Nagoya Grampus | Shimizu S-Pulse | 1 | 0 | H |
2012 | 2012-03-10 05:00:00+00:00 | Sagan Tosu | Cerezo Osaka | 0 | 0 | D |
2012 | 2012-03-10 05:00:00+00:00 | Hokkaido Consadole Sapporo | Iwata | 0 | 0 | D |
... | ... | ... | ... | ... | ... | ... |
É difícil entender do que se tratam esses dados sem uma referência. A primeira coluna parece ser de ano, porque temos um número inteiro, 2012, repetido muitas vezes. Logo depois temos o que parece ser uma data exata com hora.
Depois temos duas colunas bastante interessantes. Elas são strings (cadeias de caracteres), ou seja, são informações de texto. Temos várias informações que, a princípio, não dizem nada para nós. O que conseguimos identificar é que elas parecem ter alguma relação com cidades do Japão, porque temos Osaka, Hiroshima, Tóquio, Yokohama, Kawasaki, etc.
Depois temos duas colunas com números, dessa vez números baixos, que também podem ser zero. A última coluna tem algumas letras e parece que elas se repetem bastante. variando entre A, H e D.
Temos os dados, de fato, eles estão no nosso ambiente de desenvolvimento, mas não conseguimos dizer nada sobre eles sem os metadados.
Isso nos diz muito sobre a função dos metadados: são informações que nos ajudam a interpretar os dados com que estamos trabalhando.
No próximo vídeo, vamos explorar isso mais a fundo e entender o que são metadados, afinal.
O curso Governança de dados: usando metadados para compreender dados possui 89 minutos de vídeos, em um total de 43 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.