O que é o Google Gemini e o que esse modelo de IA é capaz de fazer — com exemplo prático
O Google está fazendo muito barulho com o Gemini 1.5 Pro, o modelo de inteligência artificial generativa.
O Paulo Silveira, CEO e co-fundador da Alura, esteve no Googleplex, no Vale do Silício, e pode ver de perto algumas das inovações que estão acontecendo.
Mas, apesar disso, parece que as pessoas ainda não conhecem bem essa ferramenta. Ou, pelo menos, ainda não conhecem todas as suas possibilidades.
Pensando nisso, o objetivo deste artigo é apresentar o que é e para que serve o Google Gemini.
Inclusive, para te mostrar com exemplo prático o que a ferramenta é capaz de fazer. Vamos lá?
O que é o Google Gemini?
O Google Gemini é a mais recente e avançada família de modelos de inteligência artificial generativa da Google.
Lançado em 2024, o Gemini representa um salto significativo na capacidade dos sistemas de IA da empresa, superando até mesmo especialistas humanos em diversos benchmarks de avaliação.
Para quê serve o Google Gemini?
O Google Gemini serve para uma ampla gama de tarefas, incluindo:
- Geração de conteúdo criativo;
- Resolução de problemas complexos;
- Assistência em tarefas do dia a dia;
- Integração com sistemas já existentes;
- Leitura e reconhecimento de imagens, áudios e vídeos.
Essas são apenas algumas das muitas funções. De fato, ele é uma plataforma de IA extremamente versátil, capaz de auxiliar pessoas usuárias em uma ampla variedade de tarefas.
O que mudou do Bard para o Gemini?
Uma das principais dúvidas em torno do Gemini é “qual é a diferença em relação ao Bard?”
Bom, vamos lá. O principal objetivo com essa mudança de Bard para Gemini é unificar os LLMs do Google.
A marca “Bard” existia apenas para se referir ao chatbot, assim como o ChatGPT.
Com essa alteração, a finalidade principal do Google é criar uma marca única que se refere tanto aos seus modelos de linguagem (LLMs), quanto ao chatbot de acesso público.
Quais são as versões do Gemini?
É possível contar sobre a evolução e as funcionalidades do Gemini a partir das seguintes versões:
Gemini Ultra: É a versão mais poderosa e avançada do Gemini, com projeção para tarefas altamente complexas. Essa versão é capaz de superar especialistas humanos em diversos benchmarks de avaliação, como o MMLU. Existe na versão 1.0, e está disponível na plataforma Gemini, no plano Gemini Advanced. É equivalente ao GPT-4.
Gemini Pro: É a versão intermediária do Gemini, com foco em uma ampla gama de tarefas. Está disponível para o público tanto na versão 1.0 quanto na versão 1.5 através da plataforma Gemini e do Google AI Studio. O modelo 1.5 aceita vídeos, áudios e imagens em seu prompt, sendo multimodal.
Gemini Nano: É a versão mais eficiente do Gemini, principalmente para executar em dispositivos móveis, como smartphones. Essa versão está integrada ao Pixel 8 Pro da Google para realizar tarefas como resumir áudio e sugerir respostas inteligentes.
Quais são os diferenciais do Gemini?
Algo que torna o Gemini especial é sua natureza multimodal. Ou seja, ele pode trabalhar não apenas com texto, mas também com imagens, áudio, vídeos e outros tipos de dados.
Isso permite que o Gemini sirva para uma ampla gama de tarefas, desde a geração de conteúdo criativo até a resolução de problemas complexos que envolvem múltiplas formas de informação.
Além disso, existe a integração com o ecossistema Google em diversos produtos e serviços da Google, como a busca, o Chrome, o Google Docs, o Google Ads e daí por diante.
Em resumo, essa integração permite que as pessoas usuárias tenham uma experiência mais unificada e eficiente.
O maior destaque, no entanto, veio com o tamanho da janela de contexto do Gemini 1.5 Pro.
Enquanto que seus concorrentes diretos ofereciam janelas de contexto de 128k tokens (GPT-4) e 200k tokens (Claude 3), o Google surpreendeu provendo uma janela de 1 milhão de tokens.
Isso é o equivalente a 8 ou 9 livros inteiros ou uma hora de vídeo. Inclusive, em testes internos, o time do Google afirmou que já está trabalhando com uma janela de contexto de mais de 10 milhões de tokens, algo inédito até o momento.
Atualizações do Google Gemini — maio de 2024
No dia 14/05/2024 acabou o Keynote do Google I/O, sobre as novidades do Google — que foi basicamente sobre as atualizações em termos de IA:
Gemini 1.5 Pro: o modelo foi melhorado e agora estará disponível uma janela de contexto de 2 milhões de tokens (o dobro de antes e muito mais que os competidores) via Gemini Advanced (a versão paga) e também pelo Google AI Studio.
Gemini 1.5 Flash: novo modelo peso leve, bem mais rápido, mas mantendo a janela de 1 milhão de tokens. Disseram que, via API, o custo de 1M de tokens será de R$ 0,35.
Gemini em tudo do Google: você vai poder usar o Gemini no Gmail para ajudar na escrita, fazer busca em threads e na sua caixa de mensagens, resumir informações e daí por diante.
AI Overviews: são respostas do Gemini no topo das buscas que você fizer no Google, também conectando com links para sites, com Google Maps (quando couber). Essa pode ser uma possível mudança de paradigma do que foi o Google Search e a internet nos últimos ~20 anos.
Gems: os GPTs do Gemini. Ou seja, agentes para algo específico, como "Você é um professor de matemática". Também poderá se conectar com seu Gmail, Google Drive, etc.
PaliGemma: modelo open source com capacidade de visão.
Gemma 2: será lançado em junho, com as versões 2B, 7B e a nova 27B.
Quanto custa o Google Gemini?
Em primeiro lugar, você pode usar o modelo Gemini 1.0 Pro pode ser utilizado gratuitamente através da plataforma Gemini.
Além disso, atualmente, você também pode usar o Gemini 1.5 Pro de maneira gratuita através do Google AI Studio.
Para quem se interessa em utilizar o modelo Gemini 1.0 Ultra, ele está disponível na plataforma Gemini, no plano Gemini Advanced, que custa atualmente R$96,99 mensais.
Exemplo prático do que o Gemini é capaz de fazer
Busquei um exemplo prático do que o Gemini, a IA do Google, é capaz de fazer para compartilhar com você.
No teste, o modelo recebeu um filme de 44 minutos e, logo após, um desenho simples de “palitinho” de um homem sob uma caixa d’água, com água caindo sobre ele (que pode ser visto do lado esquerdo), e uma pergunta: “qual é a minutagem em que essa cena acontece?”.
O resultado foi realmente impressionante, o Gemini encontrou o tempo do filme com precisão.
Conclusão
Esse é apenas um exemplo do que o mais recente modelo de IA do Google é capaz de fazer.
É também um convite para você explorar, com profundidade, as potencialidades dessa inteligência artificial.
O lançamento do Gemini representa um marco importante na evolução da inteligência artificial, demonstrando o contínuo avanço da tecnologia e seu potencial para transformar a maneira como interagimos com computadores e resolvemos problemas.
À medida que o Google continua a aprimorar e expandir os recursos do Gemini, é provável que vejamos ainda mais aplicações inovadoras dessa poderosa plataforma de IA nos próximos anos.