O que é o Google Gemini e o que esse modelo de IA é capaz de fazer — com exemplo prático

O que é o Google Gemini e o que esse modelo de IA é capaz de fazer — com exemplo prático
Fabrício Carraro
Fabrício Carraro

Compartilhe

O Google está fazendo muito barulho com o Gemini 1.5 Pro, o modelo de inteligência artificial generativa.

O Paulo Silveira, CEO e co-fundador da Alura, esteve no Googleplex, no Vale do Silício, e pode ver de perto algumas das inovações que estão acontecendo.

Mas, apesar disso, parece que as pessoas ainda não conhecem bem essa ferramenta. Ou, pelo menos, ainda não conhecem todas as suas possibilidades.

Pensando nisso, o objetivo deste artigo é apresentar o que é e para que serve o Google Gemini.

Inclusive, para te mostrar com exemplo prático o que a ferramenta é capaz de fazer. Vamos lá?

O que é o Google Gemini?

O Google Gemini é a mais recente e avançada família de modelos de inteligência artificial generativa da Google.

Lançado em 2024, o Gemini representa um salto significativo na capacidade dos sistemas de IA da empresa, superando até mesmo especialistas humanos em diversos benchmarks de avaliação.

Banner de divulgação da Imersão IA da Alura em colaboração com o Google. Mergulhe em Inteligência artificial com a Alura e o Google. Serão cinco aulas gratuitas para você aprender a usar IA na prática e desenvolver habilidades essenciais para o mercado de trabalho. Inscreva-se gratuitamente agora!

Para quê serve o Google Gemini?

O Google Gemini serve para uma ampla gama de tarefas, incluindo:

  • Geração de conteúdo criativo;
  • Resolução de problemas complexos;
  • Assistência em tarefas do dia a dia;
  • Integração com sistemas já existentes;
  • Leitura e reconhecimento de imagens, áudios e vídeos.

Essas são apenas algumas das muitas funções. De fato, ele é uma plataforma de IA extremamente versátil, capaz de auxiliar pessoas usuárias em uma ampla variedade de tarefas.

O que mudou do Bard para o Gemini?

Uma das principais dúvidas em torno do Gemini é “qual é a diferença em relação ao Bard?

Bom, vamos lá. O principal objetivo com essa mudança de Bard para Gemini é unificar os LLMs do Google.

A marca “Bard” existia apenas para se referir ao chatbot, assim como o ChatGPT.

Com essa alteração, a finalidade principal do Google é criar uma marca única que se refere tanto aos seus modelos de linguagem (LLMs), quanto ao chatbot de acesso público.

Quais são as versões do Gemini?

É possível contar sobre a evolução e as funcionalidades do Gemini a partir das seguintes versões:

  • Gemini Ultra: É a versão mais poderosa e avançada do Gemini, com projeção para tarefas altamente complexas. Essa versão é capaz de superar especialistas humanos em diversos benchmarks de avaliação, como o MMLU. Existe na versão 1.0, e está disponível na plataforma Gemini, no plano Gemini Advanced. É equivalente ao GPT-4.

  • Gemini Pro: É a versão intermediária do Gemini, com foco em uma ampla gama de tarefas. Está disponível para o público tanto na versão 1.0 quanto na versão 1.5 através da plataforma Gemini e do Google AI Studio. O modelo 1.5 aceita vídeos, áudios e imagens em seu prompt, sendo multimodal.

  • Gemini Nano: É a versão mais eficiente do Gemini, principalmente para executar em dispositivos móveis, como smartphones. Essa versão está integrada ao Pixel 8 Pro da Google para realizar tarefas como resumir áudio e sugerir respostas inteligentes.

Quais são os diferenciais do Gemini?

Algo que torna o Gemini especial é sua natureza multimodal. Ou seja, ele pode trabalhar não apenas com texto, mas também com imagens, áudio, vídeos e outros tipos de dados.

Isso permite que o Gemini sirva para uma ampla gama de tarefas, desde a geração de conteúdo criativo até a resolução de problemas complexos que envolvem múltiplas formas de informação.

Além disso, existe a integração com o ecossistema Google em diversos produtos e serviços da Google, como a busca, o Chrome, o Google Docs, o Google Ads e daí por diante.

Em resumo, essa integração permite que as pessoas usuárias tenham uma experiência mais unificada e eficiente.

O maior destaque, no entanto, veio com o tamanho da janela de contexto do Gemini 1.5 Pro.

Enquanto que seus concorrentes diretos ofereciam janelas de contexto de 128k tokens (GPT-4) e 200k tokens (Claude 3), o Google surpreendeu provendo uma janela de 1 milhão de tokens.

Isso é o equivalente a 8 ou 9 livros inteiros ou uma hora de vídeo. Inclusive, em testes internos, o time do Google afirmou que já está trabalhando com uma janela de contexto de mais de 10 milhões de tokens, algo inédito até o momento.

Quanto custa o Google Gemini?

Em primeiro lugar, você pode usar o modelo Gemini 1.0 Pro pode ser utilizado gratuitamente através da plataforma Gemini.

Além disso, atualmente, você também pode usar o Gemini 1.5 Pro de maneira gratuita através do Google AI Studio.

Para quem se interessa em utilizar o modelo Gemini 1.0 Ultra, ele está disponível na plataforma Gemini, no plano Gemini Advanced, que custa atualmente R$96,99 mensais.

Exemplo prático do que o Gemini é capaz de fazer

Busquei um exemplo prático do que o Gemini, a IA do Google, é capaz de fazer para compartilhar com você.

No teste, o modelo recebeu um filme de 44 minutos e, logo após, um desenho simples de “palitinho” de um homem sob uma caixa d’água, com água caindo sobre ele (que pode ser visto do lado esquerdo), e uma pergunta: “qual é a minutagem em que essa cena acontece?”.

Ao lado esquerdo, a ilustração representando a cena do filme em uma representação no paint. Do direito, o filme real, na minutagem dada pelo modelo É uma cena de uma caixa d´água grande com um cano saindo bastante água.

O resultado foi realmente impressionante, o Gemini encontrou o tempo do filme com precisão.

Conclusão

Esse é apenas um exemplo do que o mais recente modelo de IA do Google é capaz de fazer.

É também um convite para você explorar, com profundidade, as potencialidades dessa inteligência artificial.

O lançamento do Gemini representa um marco importante na evolução da inteligência artificial, demonstrando o contínuo avanço da tecnologia e seu potencial para transformar a maneira como interagimos com computadores e resolvemos problemas.

À medida que o Google continua a aprimorar e expandir os recursos do Gemini, é provável que vejamos ainda mais aplicações inovadoras dessa poderosa plataforma de IA nos próximos anos.

Fabrício Carraro
Fabrício Carraro

Fabrício Carraro é formado em Engenharia da Computação pela UNICAMP e cursa pós-graduação em Data Analytics & Machine Learning na FIAP. Atualmente, mora na Espanha.

Veja outros artigos sobre Inteligência Artificial