Cientista de Dados programa?

Cientista de Dados programa?
Pedro Henrique Campagna Moura da Silva
Pedro Henrique Campagna Moura da Silva

Compartilhe

Introdução

Por diversas vezes, respondendo o fórum da Alura, me deparo com perguntas sobre o quanto uma pessoa cientista de dados deve conhecer sobre programação e se é necessário aprender orientação a objetos para trabalhar com ciência de dados. Hoje vamos explorar um pouco dessas perguntas, tendo como base o dev em t e a Ciência de Dados.

Banner promocional da Alura, com um design futurista em tons de azul, apresentando o texto

O que é Ciência de Dados?

A Ciência de Dados é uma área do conhecimento que está na intersecção de três outras áreas:

  • Ciência da Computação
  • Matemática e Estatística
  • Conhecimento de negócio
Diagrama de Venn. Temos três circunferências, cada uma com o nome de uma área de conhecimento. A circunferência da parte superior possui as palavras matemática e estatística. As circunferências da parte inferior possuem as palavras ciência da computação e conhecimento de negócio, da esquerda para a direita. Todas as circunferências possuem intersecções, sendo que a área de intersecção entre as três, no centro do diagrama, possui as palavras ciência de dados.

Matemática e Estatística são as bases da Ciência de Dados, trazendo os conhecimentos necessários para compreender e interpretar os dados com confiança e precisão.

Já o conhecimento de negócio permite à pessoa cientista entender o problema proposto e o que pode ser feito para resolvê-lo, moldando as soluções conforme a necessidade do negócio e do(a) cliente.

A Ciência da Computação, por outro lado, permeia essas duas áreas. Ela vai oferecer as ferramentas - seja em código, software ou na aplicação de modelos - para aplicar os conhecimentos aos problemas da realidade, permitindo sua resolução.

Ser cientista de dados significa trabalhar com programação no dia a dia, ou seja, todo(a) cientista de dados precisa saber programar. Entretanto, qual nível de profundidade é necessário em programação para uma pessoa cientista de dados?

Programação em Data Science

Como dito anteriormente, se você quer se tornar cientista de dados, não dá para escapar de aprender programação. Hoje as linguagens que melhor dão suporte à ciência de dados são Python, R e Julia.

Mas quais são as diferenças entre elas?

Python é uma linguagem de uso geral. Isso significa que, com o conhecimento e fluência na linguagem, você poderá usá-la não só para seus projetos na área de dados, mas também para programar basicamente qualquer coisa.

R é uma linguagem de uso mais específico voltada para a estatística, análise e visualização de dados. Bastante utilizada em meio acadêmico, possui uma grande variedade de bibliotecas que se relacionam com a estatística e a ciência de dados. Nela você encontrará uma grande variedade de bibliotecas prontas para utilizar em seus projetos.

Julia é a linguagem mais nova dessa lista. Criada em 2012, ela veio atender as necessidades de computação de alto desempenho, obtendo melhor performance. Além disso, há a possibilidade de usar funções das linguagens de programação Python e C.

Mas então por qual eu devo começar?

Pessoalmente, eu recomendo começar por Python que hoje trabalha muito bem com todas as áreas relacionadas à Data Science, em especial estatística, análise e visualização de dados e machine learning. Além disso, outro grande benefício da linguagem é uma enorme comunidade participativa e aberta à diversidade, com iniciativas voltadas para o apoio de mulheres, pessoas pretas e grupos LGBTQI+.

Se você está iniciando na área aqui na Alura, recomendo especialmente começar pela Formação Python para Data Science, que oferece um contexto geral da linguagem já voltado para quem quer trabalhar com ciência de dados.

Cientista de Dados em T

Se você já conhece o que é profissional em T, então entende que por mais que a área principal seja Data Science, também temos que nos aprofundar na programação. Então, o que nos resta saber é quanto.

Para trabalhar com tranquilidade com os desafios de aprendizado de máquina, estatística e ciência de dados, é importante que o(a) profissional seja fluente na linguagem escolhida.

Isso significa dominar o básico da linguagem, usando suas funcionalidades para poder trabalhar em projetos maiores e com maior complexidade.

Mas não se preocupe, vamos examinar melhor quais são alguns dos conhecimentos mais úteis para trabalhar em projetos maiores em ciência de dados.

Cientista de dados programador(a)

Por onde começar?

Para iniciantes em programação é importante e recomendado desenvolver a lógica de programação, pois trata dos conceitos fundamentais para programar em qualquer linguagem.

Se tiver interesse, pode saber mais sobre o assunto acessando a formação Iniciante em Programação.

Aplicando programação em Data Science

Agora, vamos listar alguns conhecimentos que podem ser úteis para trabalhar com projetos maiores:

  • Boas práticas de programação

Como dar bons nomes a variáveis e funções, como estruturar o código e quanto comentar podem ser questões difíceis, mas melhorar essas práticas também aumenta significativamente a qualidade do código. Lembre-se que quem programa não escreve código para o computador e sim para outras pessoas. Logo, ele deve ser legível.

  • Programação orientada a objetos

Especialmente em projetos mais extensos, a programação orientada a objetos pode ser uma poderosa aliada do(a) cientista de dados, melhorando a qualidade do código e a manutenibilidade do projeto como um todo. Manutenibilidade é a facilidade que um projeto possui em receber manutenção ou atualizações depois de lançado.

  • Padrões de projeto

Falando em projetos complexos e/ou extensos, uma das principais formas de trabalhar com eles mantendo o código limpo e coeso é a utilização de padrões de projeto, que nos auxiliam a lidar com problemas recorrentes com soluções rápidas e elegantes.

Conclusão

Consolidando os conhecimentos em programação, o(a) cientista de dados consegue trabalhar mais facilmente em projetos mais complexos, mantendo o código coeso, legível e elegante.

Dessa forma, além de tornar-se um(a) profissional mais completo(a), ou seja, verdadeiramente profissional em T, poderá trabalhar com mais facilidade com times de desenvolvimento que não são focados em dados, auxiliando, por exemplo, na implementação do modelo produzido.

Ademais, uma base sólida de lógica de programação auxilia cientistas de dados a trabalhar com ferramentas e frameworks específicos, mesmo que não seja na linguagem que costuma trabalhar, caso haja a necessidade de incluir essas ferramentas em algum projeto.

Recomendações de conteúdos

Pedro Henrique Campagna Moura da Silva
Pedro Henrique Campagna Moura da Silva

Técnico em Informática e Analista de Relações Internacionais, trabalhou com desenvolvimento de software e ciência de dados voltados para pesquisa. Atualmente estuda governança de dados e tenta sempre construir pontes entre a tecnologia e o internacional.

Veja outros artigos sobre Data Science