Boas-vindas! Meu nome é Pedro Moura. Vamos acompanhar juntos este curso de qualidade de dados para pessoas que desejam entender o que é qualidade e por que ela é tão importante quando trabalhamos com dados.
Audiodescrição: Pedro moura se identifica como um homem de pele clara. Possui olhos e cabelos castanho-escuros. Nos olhos, há um óculos de grau quadrado. No corpo, veste uma camiseta verde escura básica. Ao fundo, um ambiente com vários quadros e estantes com objetos, iluminado na cor verde.
Neste curso, vamos aprender definições importantes sobre qualidade, explorar as cinco dimensões de qualidade pelo framework DAMA e conhecer outros frameworks que nos auxiliam a garantir a qualidade quando trabalhamos com dados.
Além disso, teremos uma parte prática na qual criaremos um check para aferir a qualidade de dados em um dataset. Isso será feito com a biblioteca PyDeequ, do Python.
Para aproveitar melhor este curso, recomendamos que você tenha alguma familiaridade com a linguagem de programação Python, pois vamos usar uma de suas bibliotecas para criar os testes de qualidade de forma prática.
Além disso, é importante que você tenha algum conhecimento básico sobre governança de dados.
Vamos aprender sobre qualidade de dados?
Imagine que somos pessoas diretoras de vendas de uma distribuidora de filmes. Nossa clientela são as grandes redes de cinema do Brasil, e as vendas dessa empresa acontecem por três canais:
Uma de nossas atribuições como pessoa diretora de vendas é pegar os dados dos três canais e somá-los. Uma vez que isso está feito, ainda precisamos conversar com o pessoal do financeiro para verificar se o número de vendas está correspondendo ao valor que a empresa recebeu.
Entretanto, neste mês, os números não batem. Isso é um problema de qualidade de dados, algo mais comum do que podemos imaginar.
É isso que vamos estudar neste curso: princípios, processos, técnicas e padrões que nos ajudam a garantir a qualidade dos dados.
Se lembrarmos da roda de disciplinas da DAMA (Data Management Association), uma forma de verificar quais áreas ou sub-áreas estão relacionadas com governança de dados, a área de qualidade de dados é uma dessas sub-áreas.
Mas, afinal, o que é qualidade de dados?
A resposta é relativamente simples. Dados de qualidade são aqueles que representam de forma fiel a realidade e também estão disponíveis quando são necessários.
Nesse caso, quando tivemos um problema e os dados não bateram, duas coisas podem ter acontecido. Uma é que esses dados podem não representar a realidade. Por exemplo, algumas vendas podem ter sido duplicadas e essas vendas duplicadas não aconteceram de fato quando batemos com o faturamento.
Outra possibilidade é que os dados ainda não tenham sido consolidados. Por exemplo, as equipes dos canais não terminaram de inserir os dados corretos nos bancos de dados e, dessa forma, eles não estavam disponíveis quando precisamos deles. Essa disponibilidade é a segunda questão importante quando pensamos em qualidade de dados.
Por isso, é muito importante implementar ações de qualidade de dados.
Vamos imaginar que estamos fazendo esse relatório deste mês e, por uma questão de corte de custos, estamos avaliando se vamos fechar um dos canais para diminuir o custo da operação. Se os dados não refletirem a realidade, poderíamos excluir um canal que, na verdade, está performando muito bem, e essa decisão seria terrível para a empresa.
Além disso, como os dados estão incorretos, vamos precisar refazer o nosso relatório depois que as equipes corrigirem os dados, o que traz retrabalho, que é sempre muito ineficiente.
Dessa forma, um dos objetivos da qualidade de dados é justamente tornar as operações eficientes.
No próximo vídeo, vamos discutir quem são as pessoas responsáveis pela qualidade de dados.
No último vídeo, discutimos sobre a qualidade de dados e a importância de implementar essas técnicas para o negócio. Tudo isso para entender como podemos resolver o problema que a nossa empresa de distribuição de filmes está enfrentando, onde a quantidade de vendas não está correspondendo ao relatório de faturamento mensal.
Isso nos leva a uma pergunta: Quem é responsável pela qualidade dos dados dentro da organização?
Vamos a um exemplo. Poderíamos supor que nós, como pessoas diretoras de vendas, gostaríamos de delegar toda a responsabilidade para a área de governança de dados. Afinal, é uma equipe que deveria se preocupar com a qualidade, já que é uma das subdivisões de governança de dados e esse time tem bastante conhecimento específico da área.
No entanto, suponhamos que existem regras de negócio específicas sobre aqueles dados que só uma pessoa com conhecimento de negócio entenderia. Por exemplo, quando uma compra é feita via telefone, sempre temos o DDD do número que fez a compra, e precisamos que ele seja do mesmo estado da pessoa que afirmou ser compradora.
Esta é uma regra de negócio, e como a governança não tem tantas informações sobre vendas, esse tipo de regra de qualidade poderia passar despercebido.
Por isso, quando pensamos em quem é responsável pela governança de dados, temos sempre uma tríade: a governança, a entidade proprietária e a pessoa usuária dos dados.
A governança tem responsabilidade, pois é a área que mais conhece essa disciplina de qualidade. Já a entidade owner (proprietária) daquele dado é extremamente importante, pois é quem tem mais conhecimento de negócio para propor boas regras de qualidade para aquela base em específico.
Além disso, a pessoa usuária dos dados é muito importante, pois, no final das contas, é a maior interessada na qualidade dos dados. Afinal, ao usar os dados, quanto mais qualidade eles tiverem, menos tempo a pessoa usuária vai investir em resolver problemas de qualidade para que as análises sejam mais eficientes.
Se já tivéssemos várias regras de qualidade, todo o processo de análise ficaria mais eficiente. Além disso, a própria pessoa usuária também conhece os dados, porque trabalha com eles no dia a dia.
Nesse exemplo, como pessoas diretoras de vendas, conhecemos bem as características das vendas de cada um dos canais e poderíamos até contribuir com as regras de qualidade.
Por exemplo, para nós, como pessoas usuárias, é importante que as bases dos três canais tenham uma coluna com o canal de onde saiu a venda, além do ID específico de cada uma das vendas, por exemplo. Isso facilitaria muito a nossa análise.
Com base nessa regra, poderíamos até estipular uma regra de qualidade: a coluna de canais nunca deve vir vazia.
Dessa forma, entendemos que a responsabilidade pela qualidade dos dados não é de uma única área, e sim dessa tríade entre a área detentora e proprietária dos dados, a governança de dados - que ajuda a definir processos, ferramentas e o número de regras necessárias para cada base - e também a pessoa usuária, que vai contribuir com regras importantes para o seu consumo.
O curso Governança de dados: garantindo a qualidade de dados com a biblioteca Pydeequ possui 117 minutos de vídeos, em um total de 39 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.