Logo do curso
Curso

Word2Vec:

interpretação da linguagem humana com Word embedding

Quero estudar na alura

10h

Para conclusão

2216

Pessoas nesse curso

9.1

Avaliação média

Certificado

De participação

Introdução_

O que você aprenderá_

  • Aprenda como representar palavras com One-hot encode, vantagens e desvantagens
  • Entenda o que é Word2Vec e suas vantagens
  • Use modelos de Word2Vec já treinados
  • Compreenda os impactos dos vieses nos modelos de Word2Vec
  • Combine vetores de palavras para representar textos e classificá-los

Público alvo_

Pessoas com interesse em criar aplicações que envolvam interpretação da linguagem humana, utilizando machine learning e inteligência artificial.

Thiago G Santos

linkedin

Um quase físico, apaixonado por dados e educação. Atuou durante alguns anos na área de Data Science na maior fabricante de eletrodomésticos do mundo e trabalhou em projetos de Processamento de Linguagem Natural para a Petrobrás. Atualmente dedica-se à aplicação de machine learning na área da educação e na democratização do acesso ao ensino de Data Science no Brasil.

Curso atualizado em 04/05/2022

Ementa

  1. One-hot encode

    • Importando dados a partir do drive
    • One-hot encode
    • Utilizando CountVectorizer
  2. Word2Vec: primeiro contato

    • Conhecendo o Word2Vec
    • Arquiteruras de treinamento: Word2Vec
    • Carregando um modelo Word2Vec
    • Analisando os embeddings
  3. Explorando melhor o Word2Vec

    • Por trás das 300 dimensões
    • Explorando as relações entre palavras
    • Utilizando a lib python Gensim
  4. Combinando vetores

    • Construindo um Tokenizador
    • Combinando vetores Word2Vec
    • Analisando o pré-processamento do Word2Vec
    • Combinação de Word embedding
  5. Classicando com Word2wec

    • Classificando os textos com regressão logistica
    • Interpretando a classificação
    • Comparando classificadores
    • Métricas de avaliação
  6. Classicação com Word2vec Skip-gram

    • Classificando com arquitetura Skip-gram
    • CBOW vs. Skip-gram

Descubra se esse curso é pra você! Leia as primeiras aulas

Comece essa formação agora mesmo e capacite-se para seu próximo projeto!

Conheça os planos

Este e mais 14 cursos fazem parte das seguintes formações

Nossas formações são uma sequência de cursos e conteúdo para você se profissionalizar e se tornar quem o mercado procura!
Escola

Data Science

Trabalhe com dados. Aprofunde seu conhecimento nas principais ferramentas de uma pessoa data scientist. Descubra as diferentes possibilidades de análise de dados, do Excel ao Python, e mergulhe em frameworks e bibliotecas, como Pandas, Scikit-Learn e Seaborn.

Conheça a escola

Pessoas estudando esse curso nesse mês:

Estude com elas

e mais 108 pessoas

Faça parte da nossa comunidade no discord!

Troque conhecimentos com a comunidade da Alura

nossos alunos e alunas

Experiências de quem já mergulhou com a gente.

Gostei muito do curso em geral e é fundamental abordar o enviesamento dos conjuntos de dados. Inclusive este seria um excelente tema para novo curso rsObs: no listbox das aulas, o título da aula 5 está escrito errado.

Word2Vec: interpretação da linguagem humana com Word embedding

Wilson Ronaldo de Souza Assis

Muito boa. A profundidade do conteúdo, a didática e os exercícios práticos para fixação das bibliotecas do Sklearn referentes Word2vec foram os pontos altos de curso. Além disso, a dica de artigos e consulta a várias documentações contribuíram bastante para ampliação dos conhecimentos sobre o assunto.

Word2Vec: interpretação da linguagem humana com Word embedding

Luiz Peralta

Foi muito legal você mostrar como combinar o uso do gensim com word-vecs pré-treinados para língua portuguesa. O material do NILC da USP é realmente muito bom. Se puder contribuir, acho que ainda falta alguns cursos com um nível mais avançado de dificuldade. Por exemplo, em vez de usar soma (ou média) de palavras, como usar uma LSTM e processar a sequência inteira como uma série temporal. Outro detalhe é que se a sua frase tiver um excesso de 'unknowns', essa soma de palavras vai ficar "enviesada" pelo embedding 'unknown', e o classificador não vai funcionar. Nesse caso, poderíamos procurar por palavras mais próximas da string de entrada ou corrigir (se for um typo), ou até descartar. Por fim, um outro assunto interessante é: como treinar vetores de palavras específicas pra ressignificá-las, sem mexer no emdding do corpus completo? Por exemplo, inicializar com skip_gram do NILC, mas retreinar as palavras mais (ou menos) frequentes do corpus do seu dataset particular, em função da tarefa que está sendo realizada. Sei que são projetos mais complexos, mas seria legal ter cursos mais avançados nessa linha.

Word2Vec: interpretação da linguagem humana com Word embedding

Bruno Fontana da Silva

Aprenda Machine Learning com esse e outros cursos, comece agora!

Plus

De
R$ 1.800
12X
R$109
à vista R$1.308
  • Acesso a TODOS os cursos da Alura

    Mais de 1500 cursos completamente atualizados, com novos lançamentos todas as semanas, emProgramação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

Matricule-se

Pro

De
R$ 2.400
12X
R$149
à vista R$1.788
  • Acesso a TODOS os cursos da Alura

    Mais de 1500 cursos completamente atualizados, com novos lançamentos todas as semanas, emProgramação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

  • Luri, a inteligência artificial da Alura

    Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com Luri até 100 mensagens por semana.

  • Alura Língua (incluindo curso Inglês para Devs)

    Estude a língua inglesa com um curso 100% focado em tecnologia e expanda seus horizontes profissionais.

Matricule-se
Conheça os Planos para Empresas

Acesso completo
durante 1 ano

Estude 24h/dia
onde e quando quiser

Novos cursos
todas as semanas