Qual a diferença entre Data Science, Machine Learning e Inteligência Artificial?
Data Science e Machine Learning são a mesma coisa?
Data Science é uma área voltada para a extração de valor a partir de dados. Esse é um campo interdisciplinar que combina habilidades de matemática, estatística, negócios e programação. Um dos produtos gerados pela Ciência de Dados pode ser uma recomendação para tomada de decisão ou uma previsão obtida a partir de um conjunto de dados. Para que seja possível gerar uma previsão, é construído um modelo de Machine Learning. Depois que esse modelo é “ensinado” a partir da base de dados é que uma previsão pode ser gerada. Então, a Ciência de Dados pode ou não envolver o uso de algoritmos de Machine Learning, mas muitas vezes, inclui essas técnicas como uma das suas ferramentas.
O que é Data Science
Assim como todo mundo que atua na área de tecnologia, tenho lido e aprendido cada vez mais sobre as profissões e assuntos em alta. Sem dúvida, Data Science, Machine Learning e Inteligência Artificial são os campeões de relatórios, notícias e, por vezes, até mesmo de exageros.
Mas o que é cada um? Será que existe uma linha que separa cada um desses conceitos?
Data Science
A Ciência de Dados é a responsável por trazer insights. Isso é, reunindo uma grande quantidade de dados, que conclusões podemos tirar a partir deles? Considerando milhões de compras no nosso e-commerce, o que podemos dizer sobre o perfil de quem compra brinquedos em outubro?
Quem vai comprar determinados tipos de produtos, ou quem vai ter mais dificuldade em um curso?
É daqui que saem conclusões como: “nossos alunos e alunas concluem 23% mais os cursos que possuem um resultado visual de Front-End do que em Back-End”.
Repare que é muito próximo de outras palavras que também fizeram e fazem muito sucesso: Big Data e Business Intelligence.
Análise exploratória de dados
É comum começar um estudo a partir da exploração, mas não de qualquer forma. Uma análise exploratória de dados é feita através de visualizações, medidas por vezes, utilizando estatística e testes de hipótese. Tudo isso faz parte do dia a dia das pessoas que atuam como cientistas de dados.
O que é Machine Learning
Aqui é onde encontramos diversos modelos para fazer previsões. Dado um curso novo criado, qual será a taxa de conclusão considerando as características essenciais desse curso? Se lançarmos um brinquedo novo em março, quantas vendas teremos para esse perfil de público?
Perceba que isso anda muito próximo da ciência de dados. Pois é através dos dados que vamos começar a pensar em questões e previsões que queremos responder e fazer.
A estatística também aparece bastante por aqui, e aí sim entra o aprendizado supervisionado e não supervisionado, redes neurais, regressões lineares e até modelos mais complexos. Por mais assustador que possa parecer, atualmente diversas ferramentas e bibliotecas estão muito bem desenvolvidas e, em grande parte dos casos, apenas uma boa modelagem e conhecimento da API podem ajudar bastante, mesmo sem um conhecimento profundo da matemática por trás. Claro, à medida que avança na área, vai escolher sua especialização e se aprofundar no que for necessário.
Quanto aprendizado de máquina é necessário para a ciência de dados?
É importante ressaltar que a Ciência de Dados é mais do que apenas aprendizado de máquina. Porém, o aprendizado de máquina permite que os cientistas de dados analisem grandes conjuntos de informações que seriam difíceis de analisar manualmente e, principalmente, permite que sejam gerados modelos capazes de realizar tarefas específicas.
O aprendizado de máquina é tão importante para a Ciência de Dados que se tornou algo inerente à profissão. Se você se diz um cientista de dados, as pessoas já irão presumir que você domina o uso de Machine Learning.
Afinal, Ciência de dados, IA e ML são iguais? Quais as principais diferenças?
No decorrer do texto ficou claro que o Machine Learning funciona como uma ferramenta para a Ciência de Dados. Porém, quando se fala em Machine Learning também é mencionado o termo Inteligência Artificial (IA).
A IA é a capacidade de um sistema de simular a inteligência humana. Ela é usada para criar sistemas que podem aprender, resolver problemas e tomar decisões de forma autônoma. Já o Machine Learning é um subcampo da IA, que permite que os sistemas aprendam sem serem explicitamente programados. Esse aprendizado ocorre a partir do ajuste de coeficientes de equações matemáticas a um conjunto de dados.
Na prática, o que vemos são as pessoas usando o termo IA para as soluções mais sofisticadas como uma forma de enfatizar a qualidade da solução. Porém, todas essas soluções são modelos de Machine Learning treinados para tarefas específicas. Dentro desse conceito, é possível utilizar soluções sofisticadas de Machine Learning como o ChatGPT ou Github Copilot como assistentes no trabalho de análise de dados.
Vamos comparar lado a lado os temas:
Ciência de Dados | Aprendizado de Máquina (Machine Learning) | Inteligência Artificial | |
---|---|---|---|
Definição | Ciência interdisciplinar que lida com processos e sistemas para extrair conhecimento e insights de dados. | Subcampo da ciência de dados e da inteligência artificial que se concentra em desenvolver algoritmos e modelos que permitem que sistemas aprendam a partir de dados. | Campo da ciência da computação que se preocupa em criar sistemas que podem executar tarefas que normalmente requerem inteligência humana. |
Objetivo | Obter conhecimento e insights dos dados para tomar decisões informadas e prever tendências futuras. | Capacitar as máquinas a aprender com dados históricos e fazer previsões ou tomar decisões sem serem explicitamente programadas. | Criar sistemas inteligentes que possam simular o pensamento humano, resolver problemas complexos e tomar decisões como seres humanos. |
Principais Aplicações | Análise de dados, mineração de dados, visualização de dados, tomada de decisões baseada em dados, etc. | Reconhecimento de padrões, classificação, regressão, processamento de linguagem natural, sistemas de recomendação, etc. | Chatbots, carros autônomos, jogos de computador, reconhecimento de voz, assistentes virtuais, etc. |
Abordagem Técnica | Utiliza técnicas estatísticas, programação, análise exploratória de dados, entre outras. | Utiliza algoritmos de aprendizado supervisionado, não supervisionado, aprendizado por reforço, entre outros. | Pode incorporar técnicas de machine learning e outras abordagens, como lógica fuzzy e sistemas especialistas. |
Exemplos de Ferramentas | Pandas, R, Python, SQL, Tableau, Power BI, etc. | Scikit-learn, TensorFlow, Keras, PyTorch, Weka, etc. | IBM Watson, Microsoft Azure Cognitive Services, TensorFlow, OpenAI GPT, etc. |
Sobre a carreira de ciência de dados, e o papel que essas pessoas podem ter, eu entrevistei a Mikaeri no canal da Alura no Youtube:
O que faz uma cientista de dados?
Quais as profissões em ciência de dados?
O que a Kizzy faria se fosse começar a carreira em Ciência de Dados?
Essa aqui não é uma entrevista minha, mas um vídeo de uma cientista de dados e educadora muito conhecida no mercado:
Quais cursos e formações posso fazer para seguir em Ciência de Dados e Machine Learning?
E se você quer aprender mais, temos duas opções: as Formações da Alura de Data Science e de Machine Learning.
Perguntas Frequentes:
Ciência de dados é aprendizado de máquina ou IA?
Nenhum dos dois. Ciência de dados é uma área ampla que pode ou não utilizar o Machine Learning para gerar insights e previsões, ou mesmo utilizar soluções prontas de IA/ML para assessorar seu trabalho de análise de dados. Dessa forma, a ciência de dados não é aprendizado de máquina nem IA, mas pode usufruir de ambos.
A ciência de dados será substituída pela IA?
Isso está muito longe de acontecer. Atualmente, na versão paga do ChatGPT existe um modelo chamado de Code Interpreter, capaz de analisar dados e até gerar modelos de Machine Learning e realizar previsões. Entretanto, ainda é preciso ter pessoas que dominam o assunto fazendo as perguntas corretas e interpretando as análises geradas. O que esse tipo de ferramenta possibilita é que os cientistas de dados consigam trabalhar mais rápido evitando as análises mais básicas. Também existem questões relacionadas à segurança da informação. Muitas empresas não irão permitir o uso de ferramentas desse tipo para evitar vazamento de dados.
Posso aprender aprendizado de máquina antes da ciência de dados?
Não é o caminho ideal, pois o aprendizado de máquina acontece a partir de conjuntos de dados. Para aplicar ML você terá que passar por etapas como a coleta e o tratamento de dados. Portanto, o mais indicado é aprender a ciência de dados antes, pois ela irá facilitar o aprendizado de ML.
A ciência de dados requer codificação?
Sim. Você com certeza terá de aprender uma linguagem de programação como Python ou R para poder trabalhar com Ciência de Dados. Além disso, é interessante aprender a lidar com bancos de dados e então, terá que aprender coisas como SQL e NoSQL em algum momento da sua carreira.
Qual é melhor, ML ou DS?
Como vimos, não existe ML sem DS. Então o caminho é começar em Data Science por temas como análise exploratória e visualização de dados e aos poucos, ir conhecendo o mundo do Machine Learning.
Quão difícil é o aprendizado de máquina para a ciência de dados?
Tão difícil quanto escrever 3 linhas de código. Com 3 linhas de código você consegue criar um processo de treino e teste que é comum em Machine Learning. Aí, aos poucos você pode ir se aprofundando para criar soluções mais amplas. Nesse caso, terá que aprender tópicos como estatística para verificar a qualidade dos resultados e matemática para entender melhor o funcionamento dos modelos de Machine Learning. Porém, você não precisa de nada disso para começar.
Python é suficiente para ciência de dados?
Python é uma linguagem amplamente utilizada. Você pode desenvolver sistemas web e até aplicativos e jogos com essa linguagem. Então, é uma ótima ideia começar por ela já que pode escolher ir para outra área no meio do caminho. A linguagem R também é bastante utilizada, mas no mundo de DS ela serve para resolver as mesmas coisas que a linguagem Python. Como mencionei antes, pode ser necessário aprender SQL e a lidar com bancos de dados NoSQL em algum momento.
C++ é necessário para ciência de dados?
Você pode viver a sua carreira como cientista de dados sem precisar de uma vírgula de C++. Porém, o código gerado em C++ é compilado e o em Python é interpretado. Em resumo, o código compilado roda mais rápido. Então, em aplicações super avançadas em que você terá que aproveitar todos os recursos computacionais existentes, pode ser interessante conhecer mais essa linguagem.