Inteligência Artificial aplicada – Hipsters: Fora de Controle #01

Inteligência Artificial aplicada – Hipsters: Fora de Controle #01
Paulo Silveira
Paulo Silveira

Compartilhe

Introdução

Quer ficar por dentro do que está rolando na área de Inteligência Artificial? Então confira o primeiro episódio do podcast Hipsters: Fora de Controle, o mais novo spin-off do Hipsters.tech!

O Paulo Silveira, nosso host fora de controle, convida uma equipe de especialistas para um bate-papo imperdível: Marcus Mendes, host do Bolha DEV; Mário Souto, Desenvolvedor no Nubank; Sérgio Lopes, CTO da Alura; e Guilherme Silveira, CINO na Alura.

Juntos, eles compartilham algumas das coisas mais incríveis que já viram na área de IA e apresentam ferramentas úteis que já estão disponíveis para uso. Ah, e tem mais, viu? O episódio também explora os principais tópicos em IA aplicada e suas implicações na tecnologia, na sociedade e, sobretudo, no seu dia a dia.

Então, se você quer mergulhar nesse novo universo, não perca tempo e confira a transcrição completa abaixo.

Banner promocional da Alura, com um design futurista em tons de azul, apresentando o texto

Inteligência Artificial aplicada — Episódio 01

Paulo Silveira

Oi, você está no "Hipsters" fora de controle. O podcast spin-off finalmente foca em apenas uma única modinha, inteligência artificial e suas aplicações.

Esse spin-off tem um formato interessante. A gente trabalha em duas partes. Eu trago convidados e convidadas para conversar sobre "IA", especialmente aplicada, sites, links e ferramentas que já podem ser utilizadas no dia de hoje. Para melhorar o seu trabalho, sua empresa ou simplesmente para você se interessar e ver as mudanças na tecnologia que já são acessíveis na sua mão.

Na segunda parte, a gente tem uma conversa informal sobre inteligência artificial, como se fosse um papo de bar. Nós discutimos os papers, podcasts e pesquisas mais recentes nessa área, especialmente na parte de inteligência artificial generativa, que está gerando tanto buzz.

No episódio de hoje, estou aqui com o Marcos Mendes, do BolhaDev, o Mário Dev Soutinho, o Sergio Lopes da Alura e o Guilherme Silveira, meu irmão e líder de inovação aqui da Alura.

O formato do Hipsters Fora de Controle é muito interessante. Nesse primeiro round, conversamos sobre o que tem impressionado cada um dos convidados. A cada semana, trazemos pessoas novas da Alura ou fora dela para falar sobre como estão aplicando as ferramentas e o que está descontrolado e comendo muito do nosso trabalho.

Eu começo esse round aqui. Eu queria que cada um de nós trouxesse o que está vendo, o que está utilizando e colocando em prática. A minha sugestão de ferramenta que está bastante impressionante é o eightify. Ela é uma extensão do Chrome que resume o assunto de um vídeo do YouTube e coloca o time stamp para que você possa clicar rapidamente na parte que mais te interessa.

Essa ferramenta é útil para vídeos longos, como os do Fabio Akita, de ciência da computação, inteligência artificial ou podcasts do Lex Friedman. Você pode escanear rapidamente com seus olhos e ver qual é o assunto que mais te interessa.

O Marcel Almeida da PM3 fez para mim um vídeo que é o guia de carreira de Node.js. Ele vai lá no minuto 7:28 e fala "O JavaScript evoluiu para incluir novas características, como orientação e objetos". Então, essa parte a gente vai discutir, a parte de um back-end que usa mais TypeScript, etc.

Essa ferramenta é totalmente útil e já pode ser usada. Se ela for open source ali no GitHub, você pode extrair e criar um resumo dos seus vídeos ou do seu podcast ou do seu áudio para tornar rapidamente acessível àquela parte que você quer chegar, que você tem mais interesse.

Fica a minha dica para trazer essas utilidades práticas do dia a dia que já podem melhorar o seu trabalho, sua produtividade ou até mesmo gerar ideias de como ligar essas várias ferramentas para trazer grandes ganhos para você mesmo.

Sérgio Lopes

Acho que a gente não é cientista aqui, né? A gente não é falar do algoritmo e tal, mas é sobre como tá mudando o mundo na prática, né?

Paulo Silveira

É isso mesmo, Sérgio. É isso mesmo que está acontecendo agora, né?

Sérgio Lopes

E bizarramente ter essa explosão de coisas recentes aí, sei lá.

Mário Souto

Eu falo, e ele pega meu tom de voz, é quase como eu falando inglês. No vídeo que falo mais calmo, voz mais genérica, mas quando falo mais enérgico, fica mais próximo na minha interação. Aí é legal porque dá pra brincar, sabe? Dá pra pegar o vídeo português e gerar áudio inglês e legenda em inglês ou português.

Uma forma que estou contornando o problema do LipSync é gravar vídeo curto deixando uma bolinha no canto. Assim, você foca no que estou mostrando e usa o áudio como guia para ouvir o DevSoutinho em inglês.

Paulo Silveira

Mário, essa ferramenta é gratuita. O que ela usa por trás? Fiquei curioso porque obviamente ela está usando as ferramentas que a gente já conhece. Mas o que ela deve estar conectando várias, não é?

Mário Souto

No site deles, não abriram tanto. Acho que pegaram um modelo base desses open source, estenderam com o treinamento deles e tudo mais, mas não divulgam todos os detalhes.

A ferramenta é gratuita por três dias para testar e depois tem um plano anual de R$200. Tem também um plano mensal, que não lembro o valor agora.

É uma ferramenta paga, mas o resultado dela é muito bom perto de outras que estava testando. Essa encaixou bem no meu fluxo.

Guilherme Silveira

E é só questão de tempo para conectarem isso com o Resemble.AI. Assim, colocarão tua voz sintetizada e com aquelas tecnologias dentro do vídeo para fazer o lip sync. É só questão de tempo e dinheiro, óbvio, pagar mais.

Hoje, para treinar uma voz no Resemble.AI, a forma mais qualificada é ler as frases que a ferramenta sugere. Ela te dá as frases que quer que você fale e você as repete.

Paulo Silveira

Ele treina em cima de você de uma forma que ele sabe o que está acontecendo.

Guilherme Silveira

Isso. É, ele sabe que será.

Marcus Mendes

Então, o raciocínio por trás do ensinamento da assistente virtual é pegar uma pessoa para gravar vários fonemas por dias e treiná-la com frases prontas. A partir disso, constrói-se os fonemas sintetizados da voz digital.

Mário Souto

Mas gente, é por dias ou é tipo 10 frases e ele faz magia já?

Guilherme Silveira

O Resemble AI pede pelo menos 25 frases para uma voz razoável. A voz fica muito próxima à sua, só que em inglês. Para outras línguas, o Resemble AI é o produto mais antigo e fácil de usar. Para outras línguas, é preciso entrar em contato com eles. Eu já entrei há três anos, mas ainda não tive resposta.

Marcus Mendes

Minha dica é só complementar o que o Mario Soutinho falou sobre a utilidade do Reeamble AI. O que impressiona é que, diferente de outras tecnologias, a liberação para o público foi rápida e os resultados são imediatos. Mesmo com todo o desenvolvimento que teve, desde os anos 40 e 50, as tecnologias chegaram em 2023 e já estão disponíveis para o grande público.

É impressionante como o resultado é rápido, especialmente para aqueles que não são muito familiarizados com a tecnologia. Você faz a pergunta e o sistema responde instantaneamente, mesmo com todo o processamento que acontece nos bastidores.

Mário Souto

O Captions, se o vídeo tem 60 segundos, ele me gera em 50, 40 e estou renderizando no meu celular." Tipo...

Paulo Silveira

Mário, Marcos, aliás, eu esqueci da mágica da edição do podcast. Estamos gravando na sexta, episódio de site toda sexta é quentíssimo. E atenção para a mágica, porque agora vamos ouvir Mário Souto falando em português e depois em inglês. Atenção!

Mário Souto

Desde que saiu o chatGPT, eu comecei a ficar meio preocupado e agora eu realmente vendo as ferramentas que podem potencial de mudar tudo aqui. "Since the EPT chat was released, I started to get a little worried, and now I'm really seeing the tools that have the potential to change everything here."

Paulo Silveira

Não foi impressionante? Não é impressionante?

Mário Souto

"Boa, boa."

Marcus Mendes

Uma dica que achei interessante é uma extensão do Chrome que aplica o conceito do Bing Chat ao Google. É uma alternativa para quem ainda não tem acesso ao Bard. A extensão faz uma pesquisa paralela à pesquisa normal no Google e mostra na interface resultados resumidos e links relevantes para que o usuário converse com a IA conversacional. É basicamente o que o Google Bard faz, mas para quem não tem acesso.

O link da extensão está disponível no GitHub e será disponibilizado na descrição do episódio. Com essa extensão, você terá um assistente de pesquisa direto na interface do Google para consultas tradicionais.

Guilherme Silveira

E levando em consideração essa questão de que a ferramenta, essa ideia do GPT agora ter sido popularizado, todo mundo poder utilizar, eu acho que essa é a grande sacada, assim como no Midjourney, na geração de imagens, ela popularizou o que o Dall-e estava fazendo, levando isso para o Discord, quer dizer, onde as pessoas já estavam. Elas já estavam no Discord, vuvv, todo mundo começou a utilizar.

O que o chat GPT fez de super inovador, que eu acredito, é pegou o GPT e colocou num chat. Por mais que tenha otimização, etc e tal, a questão é, pessoas não sabiam usar o GPT. Programadores e programadoras usavam o GPT. Agora você está numa forma de comunicação que todo mundo utiliza.

Da mesma forma que o WhatsApp revolucionou a troca de mensagem de áudio, não sei o que que a gente conversou, claro que teve outras ferramentas em paralelo um pouco antes, um pouco depois, etc. Mas a revolução que teve no WhatsApp de áudio é a que a gente teve no Discord com o Midjourney e é a que a gente está tendo agora no GPT através da interface de chat. É essa popularização aí que é muito forte, né?

Paulo Silveira

É, e certamente, Gui, acho que são as interfaces de uso de inteligência oficial que estão começando a evoluir e estourar o pessoal, entender o que o importante mesmo é o Wax, a experiência.

Na entrevista que o Sam Altman, o CEO da OpenAI, faz para o Lex Friedman, aquele professor do MIT, vai estar o link aqui também, o Lex pergunta para o Sam Altman, o que é, olhando para trás daqui a 10 anos, 20 anos, quantas pessoas olharem, você acha que tem alguma chance de alguém ter olhado e falar, "Poxa, esse ponto aqui foi transformacional, foi um ponto de inflexão enorme, foi o que? O GPT2, o GPT3, o GPT4, ele fala "Não, nenhum desses". É a UX do chat GPT.

Porque antes as pessoas davam as formas, ela era corrida, eram as próximas palavras. Esse mecanismo, esse truque relativamente simples, não é? Obviamente não é tão simples assim, a implementação está cheia de detalhes, mas essa sacada de que, olha, é assim que as pessoas querem usar, o que precisam usar, é sensacional e o que a gente está vendo é uma explosão cambriana mesmo de ferramentas e aplicabilidade dessas e outras generativas com o UX específicos para resolver problemas específicos é pegar o Mario e gerar a voz dele em inglês é pegar o Figma e reorganizar o seu UX de uma forma por favor me dá uma outra variação e ter esse generativo de uma forma muito útil para as pessoas que com aquela coisa que dava muito trabalho, que era muito chata, muito braçal, meio óbvia, mas muito braçal.

Então, realmente eu concordo com você, o ponto de como é entregue o produto mudou tudo, não é? Tanto que quando a gente gravou os podcasts principais do Hipsters, as pessoas de IA e a Roberta Arcoverde falou isso muito, Paulo, as pessoas que manjam mesmo inteligência artificial e algoritmos não estão impressionadas, né? Mas isso já tinha desde 2017, 2020 em especial, já tinha, só que agora colocaram, né?

Ouvir um pouco de:
ChatGPT, Transformers e Redes Neurais – Hipsters Ponto Tech #352

Então eles não ficaram tão impressionados, já estavam impressionados há seis anos. A gente que ficou um pouco mais óbvio que a acessibilidade dessas ferramentas, como todas as que vocês citaram, cada um trouxe a ideia aqui nesse primeiro round.

Mário Souto

Agora é um jogo de legos, as peças estão aí e cada pessoa está criando suas combinações e juntando e fazendo coisas inimagináveis. Porque é tipo isso, se você vê dez peças de Lego solta, nunca dizer nada. Se você junta em monta uma escultura incrível, você fica "caraca, por realmente isso aqui é surreal".

Sérgio Lopes

Eu vi o pessoal da OpenAI falando que eles ficaram meio surpresos também, né? Porque eu acho que eles vêm justo desse viés igual você falou da Roberta e do pessoal de ciência, de que assim, não tinha nada muito diferente. E aí eles falaram, a gente fez o chat GPT como um incremento, né? A gente já tinha o GPT, tá aqui, agora eu uso no chat.

E de repente explodiu, eu falei, mas não era meio plano, sabe? Que isso aí fosse ter centenas de milhões de usuários da noite pro dia, de algo que na cabeça deles já existia há muito tempo, entende? E não tinha centenas de milhões de usuários.

Paulo Silveira

Sérgio, acho que é um pouco blefe do pessoal isso, sabia? Porque nenhum sistema escala para 100 milhões de usuários sem ter pensado que poderia chegar em 10 milhões de usuários, sabe? Eu acho que eles estão fazendo um pouco de doce, porque foi muito rápido. - Tudo bem, que ele caía um pouco mais... - Exato.

Sérgio Lopes

É os bilhões do Microsoft, eu diria. Eu acho que hoje, olha o botão lá e o Azure escala quanto quiser.

Mário Souto

Eu lembro de ter visto alguma entrevista que era isso, né? A parte parada do Azure, a galera pegou e falou tipo "usa ai".

Paulo Silveira

Nessa segunda parte, eu queria pegar com vocês o que vocês estão lendo de notícia, de artigo, questões filosóficas que estão aparecendo aí no hype, o que vocês estão achando que está muito muito fora de controle eu tenho lendo alguns artigos naquele site do Lezzrong.com.

Que tem bastante das pessoas que estão em volta do Eliezer Yudikovsky. O Eliezer é esse cientista que tem sido mais vocal naqueles medos e no fora de controle.

É ele que falou olha esse negócio de parar seis meses não faz sentido não tem que colocar bomba nos servidores e parar de vez porque isso aqui é. Então ele é esse extremista da inteligência artificial e tem algum grupo tem algumas pessoas próximas dele que não são tão assim que eu acho muito interessante o estão tentando pensar realmente lá no futuro né e são questões bastante pertinentes.

E tem um artigo aí do Nicolas Kies que chama "Ciborghismo" e ele se coloca meio como um cyborg, ele não fala com essas palavras, mas fala olha eu já estou trabalhando e as pessoas já estão trabalhando de forma cyborg que é com humano no loop, então você tem máquinas, computadores, inteligência artificial, geradores e tem o ser humano sendo alimentado por essa informação e ele disse sim ou não para que lado deve ir então eu faço muita analogia com o com o Waze, não é?

De alguma forma a gente já tem essa relação cyborg com o Waze. O Waze vai te dando o caminho, ele fala "vir a esquerda, o que você faz?" Você vira a esquerda, tem uma vez ou outra que você fala "Opa, não tem como virar para a direita que está errado essa informação, é perto de uma ponte perigosa, tem muito trânsito", você consegue atualizar a máquina e falar "não, pera aí, essa decisão sua eu não concordo". E é interessante como ele escreve esse artigo, colocando sobre coerência, a robustez dessas ferramentas, e como que esses simuladores trabalham, esses agentes trabalham junto com humanos e os prompts vão sendo trabalhados através do ser humano.

Então essa interação que o Glamben colocou do chat pode aparecer em vários outros lugares. Ele faz inclusive nesse artigo, analogias com o Cortex e como que você pode trabalhar como um cérebro aumentado. Usar esses ferramentos como cérebro aumentado, um pouco já hoje, mas inclusive amanhã, muito próximo. E ele tem um apêndice que ele faz o testemunho dele como um cyborg.

Ele fala "olha, eu já estou vivendo assim". Eu... Eu já... Desde 2020, eu trabalho, escrevo e-mails e tomo decisões da minha vida junto com o GPT3. Antes do... Atenção, antes do chat de GPT. Ele já usava esses ferramentos para ele escrever artigos e meio. Inclusive quando você leia esse artigo, você percebe que às vezes ele fala com ele mesmo, é estranho. ele, nesse apêndice ele faz atenção, tudo que está sendo escrito nessa, a sessão está sendo escrito pelo outro, o Janus, o outro com o autor e você não sabe o que está sendo escrito pelo autor, o que está escrito pela máquina, o que que é mistura e no final é um artigo dele, dessa pessoa que está junto, né?

Eu acho muito interessante essa visão e essas soluções que ele dá, esses questionamentos que ele põe sobre o uso da máquina junto com o humano e esse negócio do augmented, né? Da inteligência aumentada, assim como a gente usa um trator para aumentar nossa força, a gente usa o computador para aumentar nossa inteligência, nossa capacidade de raciocínio, nossa capacidade de produção. Isso vai ficar cada vez mais óbvio, né? Então ele usa o cyborg não necessariamente com implante na cabeça, mas basta ter essas extensões de máquina.

Sérgio Lopes

Mas aí nesse sentido é o incremento do que já tem hoje.

Paulo Silveira

Exato.

Sérgio Lopes

Nessa visão dele, a IA é um passo natural.

Paulo Silveira

Do que algo que já estava acontecendo.

Sérgio Lopes

O que estava acontecendo. Não é transformativo nesse sentido filosófico. O cyborgismo já estava rolando.

Paulo Silveira

Só é uma aceleração muito alta nesses últimos três anos. muito, muito, e que é a minha aposta também, né, que a gente está no momento de inflexão e que realmente é o que eu costumo falar.

Eu acredito que com a tecnologia que a gente já tem hoje, se tudo parar de evoluir, parou de evoluir e repetir, parou de evoluir este stable diffusion, só com o lego que o Mario citou aqui já é capaz com um pouco de sacadas geniais, é capaz de a gente ter ganhos enormes para a ciência, para a produtividade, para tempo.

Essa é minha crença, não é? Obviamente posso estar completamente errado. E esse podcast tem esse espaço, acho que é esse, que é interessante.

Trairemos convidados e convidados que vão fazer declarações interessantes e polêmicas muito maiores que essa.

Mário Souto

E, Paulo, abriu o espaço para estar errado? Eu estava até, enfim, comentando de Baixador aqui, que eu acho que no nível que a gente está agora, cada vez mais vai começar a fazer sentido essas... essas ferramentas que floparam agora com o Facebook do metaverso ali, mas também as ferramentas de realidade aumentada, né?

Então, por exemplo, é você conseguir gerar a interface ou essas coisas que elas são mais dinâmicas a partir de metadados, de geolocalização e tudo mais e você conseguir botar num óculos na cara. Acho que, por exemplo, o fato da Apple não estar se posicionando em nada dessas coisas de "ah", gerou todo um hype de que talvez ela lance alguma coisa, mas indo mais pro pé no chão, eu estou vendo muito forte a Nvidia e o pessoal da Unreal Engine fazendo coisas de virar mundos assim, como se fosse brincadeira.

É praticamente você assistir o filme do... Caraca, é isso isso agora, aquele filme do Leonardo DiCaprio que ele faz o... Que ele manipula os sonhos? - O Inception. - O Inception. É praticamente o Inception. Só que assim, com a qualidade de filme da Pixar, que demora meses para ser processado, em tempo real, e aí eu fico pensando "Poha, não tá muito longe assim,

Se você conseguir botar isso num dispositivo, por mais que você use o seu celular e faça um stream em local de alguma forma, tem um delay mínimo, mas que vai ser aceitável se você conseguir plugar no Waze, ou você começar a ter jogos sendo gerados, ou algo do gênero, sabe? Eu acho que beleza, pode ir no seu bagulho que vai mudar o mundo, ou o metaverso, todo mundo vai ficar dentro, estilo jogador número 1, mas tá começando a ter o ponto que isso vai começar a se introduzir no nosso dia a dia, pelo próximo gadget que eu consegui aproveitar isso de uma forma mais espertinha.

Paulo Silveira

Boa filosofada de Bar. Essa segunda parte filosofada de Bar, tá tudo liberado.

Marcus Mendes

Se você pega exemplo prático disso, por exemplo, com o GPT-4, que tem suporte à interpretação de imagens e construir, e aí, a partir disso, você consegue fazer ganchos ou do GPT ou de outras plataformas e ferramentas de criação, seja de imagens, seja de vídeo, de texto, conteúdos, etc.

Então, fazer em tempo real análise do ambiente 3D. E você falar para uma IA inventar alguma coisa para colocar em cima, então se eu me assomar isso num jogo que você consiga interagir com isso tudo, é uma coisa que há dois anos a gente aqui que não está tão ligado na parte de estudos, pensaria que "nossa isso daqui a 15 anos talvez aconteça".

Não, já dá para imaginar alguém chegando amanhã com isso com um projeto a jogar no GitHub, e falar "olha o que eu fiz", montou em casa isso, um pouco investimento final.

Mário Souto

E imagina um solto assim né, é um hardware óculos que você liga um fio no seu celular, foda-se com o filme, mas você conseguiu olhar o ambiente com o GPT4 de diferencial, isso aqui é um computador, isso aqui é tal coisa, e aí você já vai caminhando pra ter outros herramientas em cima disso.

Só que eu tipo, acho que é muito de ter o framework com primeiro passo e ir plugando as outras coisas que estão surgindo, e eu super recomendo quem quiser ver o Two Minutes Paper, que é o canal que eu mais assisto já, se tem algumas vezes, tem muitos papers legais da NVIDIA e de outras coisas dessa parte mais criativa que tá rodando também.

Marcus Mendes

E um outro paper que pintou, esse foi da OpenAI que lançou, faz, acho que, umas duas ou três semanas e agora caiu aí na parte de notícia, até comentei sobre isso no Bolha Dev, eles lançaram um paper sobre um modelo novo de geração de imagens, que é um modelo de consistência, não, um modelo de difusão.

O de difusão é basicamente, você começa com uma imagem que é tipo, "chiado da TV, velha, quando está sem sinal" e aí cada passagem que vai fazendo sobre o prompt que você deu, ele vai eliminando tudo que não é "chiado" e deixa só a imagem que você pediu, né, a criação é basicamente em cima disso, Só que é com inúmeras passagens que vai fazendo a interpretação da imagem a cada etapa.

Esse do modelo de consistência é uma passagem só, ou no máximo duas, uma coisa assim. Então a velocidade com a qual ele consegue fazer a criação da imagem, ela é muito maior do que o que existe hoje desse modelo de difusão.

Paulo Silveira

Gente, eles querem melhorar o que já está ótimo, né? Vamos melhorar o que já está excelente.

Mário Souto

Mas é isso, né?

Sérgio Lopes

Mas para fazer serial time, precisa ser...

Marcus Mendes

Verdade, exatamente. Então é curioso, esse do modelo de difusão parece aquele, é uma frase que é atribuída a Michelangelo ou não sei lá, como é que você faz pra esculpir um cavalo, eu olho pro bloco de mármore e tiro tudo que não é cavalo, o modelo de difusão faz basicamente a mesma coisa, eu olho pra esse chiado aqui e tiro tudo que não é chiado e deixo só esse prompt maluco que você pediu né, e modelo esse novo de consistência faz uma passagem só e eles é um paper tá em pré o pré-release paper, né, para lançamento, sei lá.

Então ainda tem que ser revisado, etc. Mas ainda assim eles estão apontando para isso nessa evolução da geração de imagem. E se você imaginar que dá para aplicar isso em outros modelos generativos, de texto, de vídeo, que eu estava comentando agora sobre geração de voz e etc.

Então pode ser um salto aí na velocidade da entrega de uma coisa que a gente hoje já está falando mais já está falando mais como, é tão rápido, né? Eu peço fazer um texto, ele cospe um texto em 15 segundos, pode cuspir o texto assim que você terminar de digital, que você quer, por exemplo, é um ganho bem bacana.

Sérgio Lopes

Eu estou empolgado aqui com autoGPT, vocês estão falando muito de multimídia, a imagem, texto, etc. Essa parte eu não estou tão por dentro, mas eu fico olhando ainda com o gpt.

Então o pessoal tem experimentado, é criar agentes autônomos com o gpt, E aí você tem alguns projetinhos open source que a galera tá brincando, mas que é basicamente você dar uma tarefa pra ele, e ele fazendo um plano de execução dessa tarefa e plugando nas diferentes fontes e coisas, etc. até chegar num resultado.

Então, é um... O pessoal até brinca, tem um dos projetos uma "Baby AGI". É uma... O AGI é a futura inteligência artificial geral, né? O pessoal fala que ainda não existe. E aí alguém brincou, falou "eu fiz o baby AGI". É a primeira tentativa de ter isso. Então ele vai plugando vários agentes de GPT.

Então imagina que você possa ter... A gente já percebeu isso, né? Que o chat de GPT, mesmo você pode dar personas diferentes pra ele, ele assume aquela persona, né? Imagina você criar um exército de personas, ou seja, instâncias de GPT diferente, cada um com uma persona e um objetivo distinto, com um jeito de trabalho, um jeito de execução.

E você coloca essas coisas para colaborar em prol de algum objetivo. Então, dá para fazer muita coisa, né? Você lá, por exemplo, imagina que eu quero lançar um produto novo e eu quero descobrir o que já existe no mercado com relação a essa categoria de produto.

Então eu vou lançar o perfume, quero ver os concorrentes principais, quais são as tendências, quais são, ou seja, alguma coisa que você ficaria talvez uma manhã inteira pesquisando no Google, no Instagram, no Pinterest, juntando referências para alguma coisa que você quer construir.

E aí você vira para um auto-GPT, você pega um exemplo simples, está só para tangibilizar o que seria essa automação. E você fala só o seu gol principal, eu quero lançar um produto novo nessa categoria e eu queria ter uma análise de mercado aí sobre isso. E ele começa a pensar.

Mário Souto

No Twitter, dá pra você fazer o teste de hater, teste de hater.com

Sérgio Lopes

O que é o teste de hater disso?

Mário Souto

Não, dá pra você fazer um agente que ele é um agente hater Aí simula como os usuários do Twitter interagiriam com o seu produto Aí você consegue ter uma prévia ali.

Sérgio Lopes

Mas imagina ele plugando nas... É um pouco daquilo que o pessoal está tentando fazer com as APIs do chatGPT, mas que ainda é fechado e não é todo mundo que consegue abrir.

Você criando esses agentes e eles vão executando ações para você na internet, né? Tem plug-ins para todo tipo de coisa, inclusive que ele pode executar comandos na sua máquina. Eles botam um warning ali e falam "cara, roda isso num sandbox, porque eu não sei o que esse negócio vai fazer", né?

Mas você começa a disparar ali. "Ah, então parte desse planejamento, por exemplo, pode ser gerar um vídeo de alguma coisa. Para isso ele precisa rodar um comando do FFmpeg. Ele vai lá instalar na sua máquina, FFmpeg, pega e roda. E você entende? Ele vai criando uma árvore. E você vai logo guiando para onde ele vai, você fala "essa ação não é o que você faça, aquela eu quero".

Ele tem um modo 100% autônomo, que você só dá um enter e reza para aquilo não destruir a humanidade [risos]. Ou você tem um modo que você pode ir pausando a cada etapa, e dando "sim" ou "não", e "ok", se você quer seguir ou não.

Então essa ideia de você usar o GPT como uma engine de reasoning, de pensamento, de dar comandos para os próximos passos, aí você vai plugando essas APIs, esses serviços externos, para executar esse espaço, afinal, ele só gera texto, né?

Mas eu acho que é um negócio interessante que eu estou ficando bem de olho, ainda super pequeno, tá? Erra bastante, etc. Mas é óbvio que tem alguma coisa aí, entende? Tem alguma coisa aí como sendo um executor da vida, né? De você dar uma ordem pra ele e ele faz o que quiser, né?

Nessa linha, por exemplo, também tinha um que o cara colocou ali... "Ah, eu quero um plano de refeições pro meu almoço e janta pra essa semana, né?" Se todo mundo já fez no chatGPT, ele te dá uma ideia de refeições.

Só que ele fala lá e fez a compra, entendeu? É esse o ponto. Ele fala assim, eu quero cobrir essa semana e seu budget é 100 dólares. Ele entrou no Instacarts, viu ali o que tinha, colocou no carrinho e no dia seguinte chegou na casa.

Você não tem, entendeu? O ponto é que o cara deu um enter e chegou na casa dele um carrinho de compras com uma lista de "olha, na segunda-feira você pega esse, esse ingrediente faz isso, na terça você pega esse, esse outro faz aquilo".

Paulo Silveira

Aposto que ele não fez, aposto que os ingredientes estão na geladeira até hoje.

Sérgio Lopes

Mas deu uma boa thread no Twitter.

Mário Souto

Bom, mas é legal, Sérgio, porque aí dá para você fazer até o cálculo calórico das refeições, né? Tipo, você consegue pedir por aquelas tabelas que a gente já tem hoje do quanto de calorias tem numa cenoura, num pão, na média, essas coisas assim.

Sérgio Lopes

É, se você se importa com isso, sim, senão se você só como ali.

Paulo Silveira

Exato, né? Às vezes a gente faz a pose, né? Olha, o chat de apt vai me ajudar na academia. Se você não vai na academia, ele não vai te ajudar na academia.

Mario Souto

É, não adianta.

Paulo Silveira

Tem um ponto aí que... Eu acho interessante.

Guilherme Silveira

Por isso que eu acho que é importante essa questão do cyborgismo e a questão, seja de metaverso, realidade aumentada, etc. Que a gente está esquecendo o lado humano. Por exemplo, realidade virtual, a gente tem todo o problema de a gente ficar nauseado em certas situações.

Paulo Silveira

Perfeito. Não é prático. - Não é prático, não é?

Guilherme Silveira

Ele pode aumentar o que ele quiser. Você não tem como viver outras situações.

Paulo Silveira

Perfeito, Gui. E a questão do chatGPT é justo isso que ele é superprático. Ele não tem esse tipo de bloqueio, um aparelho caro, um aparelho que te deixa nauseado, ou tentando te dar uma rotina, um hábito que você nunca teve. E aí é complexo.

Essas interfaces do chatGPT, do Midjourney, etc. São triviais, né? A ideia do Midjourney é ter nascido como um bot dentro do Discord, e a pessoa merecia um Oscar, né? Eu falei "Não, não é ali, não é um sitezinho tipo o dolly que você escreve ali". Não, é no Discord que a turma já está acostumada e já coloca no meio do trabalho e já pega o feedback rápido, já tem uma interface que as pessoas conhecem assim como o chat também é uma interface que as pessoas conhecem então essas sacadas são muito boas e ninguém fica nauseado e tal.

Vou trazer um ponto que eu acho que o Guilherme tem estudado esses negócios das simulações das LLMS como agentes Tem um também que surgiu aí que eu fiz um barulho super polêmico também que é o ChaosGPT, né? O ChaosGPT, onde... É... Fez o ChaosGPT. O ChaosGPT é esse que ele tem... ele roda vários agentes em paralelo e tenta coordenar um outro, né? Então tem o que pensa, o que age, o que faz. Tem um pouco do baby aí, AGI, mas ele é um pouco mais amplo. E o objetivo dele é destruir o mundo. Enfim.

Mas eu acho interessante, são vários agentes conversando. Assim como o nosso cérebro tem... Às vezes o ChatGPT está escrevendo, parece que ele está pensando, né? Você fala "Pensa melhor e responde de novo". Eu acho que você está errado, responde de novo. Parece o nosso cérebro, né? Que a gente pensa…

Mário Souto

Elas divertidamente. - É. - Elas divertidamente.

Paulo Silveira

Exato. Então você precisa ter vários agentes e ter alguém que conclui. Falar "Agora, toma os pesos aí dessas várias opções". Tentar algum pouquinho mais seguro, não tão arriscado, mas também não super... Alguém organizando essas coisas. Enfim, eu acho interessante essa mistura de diversos agentes e um disputando com o outro o espaço para decisão final. Me parece mais coerente.

Sérgio Lopes

Eu não entendi o que ele faz. Ele gera um plano para destruir a humanidade?

Paulo Silveira

A verdade é essa.

Guilherme Silveira

Tá tentando. Ele já descobriu que o melhor caminho é através do Twitter, convencer as pessoas através do Twitter.

Paulo Silveira

É, ele chegou nessa sacada.

Guilherme Silveira

Ainda como quiser essa ironia.

Sérgio Lopes

Mas ele monta um plano, isso, no final, se não teve um texto, do que ele faria.

Guilherme Silveira

Pensa no auto-GPT, eu vou estar rodando um auto-GPT para destruir o mundo.

Sérgio Lopes

O auto-GPT executa as coisas, você não executa todas as coisas?

Paulo Silveira

Eu não tenho certeza se ele executa ou não.

Guilherme Silveira

Eu entendi que talvez ele executa.

Paulo Silveira

Eu prefiro viver na ignorância.

Mário Souto

E começar pelo Twitter é um bom primeiro passo. É só tacar uma ideia das bombas, aí tacar as bombas onde ficam os servidores que todo mundo só deixa tudo na Vírginia, acabou.

Guilherme Silveira

Ele chega nessa conclusão de que ele precisa de poder para fazer isso, só que para ele ter muito poder, ele precisa de pouco poder. Para ele começar com pouco poder, a melhor forma é influenciar as pessoas através do Twitter. Essa é a conclusão dele, e aí ele vai começar e começa, e os ativos param por aí, porque é uma infelicidade de projeto e tudo mais.

Mas o meu interesse especificamente, que eu converso com o Paulo, com algumas outras pessoas filosófico na questão, é que assim, a gente está mapeando, a gente está mapeando o nosso mundo através da linguagem. Então o que o LLM está fazendo é mapeando as nossas experiências através da linguagem e dizendo para a gente coisas relativas às experiências.

Então se eu assumo que eu consigo mapear o meu mundo, o meu mundo do Guilherme, a vida do Guilherme, através de palavras, então se eu conseguisse colocar todas as minhas vidas, todas as minhas coisas lá no LLM, ele conseguiria falar aquela história, a história clássica, se ele soubesse tudo, se soubesse todos os caminhos, diria com muita probabilidade que vai acontecer, ou seja, lá o que for. Só que a gente sabe que não dá pra fazer isso, porque há os números de átomos do universo, números de coisas que a gente fez, momentos que a gente vê impossível, memória, não sei o que, porém a LLM, mesmo assim, mesmo ela não tendo toda a memória do universo, mais do que toda a memória do universo, o tempo e não sei o que, ela é capaz de dar resultados de previsões, são previsões que ela está fazendo, muito boas.

E aí, o que eu penso aqui, para simularmos um universo, a gente não precisa simular um universo perfeito, basta simularmos um universo muito bom. Então, a minha sensação era essa de que a gente conseguiria simular um universo igual ao nosso, onde os agentes têm uma quantidade finita de opções, assim como nós temos uma quantidade finita, não temos infinitas, de opções a serem feitas. Pode dizer que temos infinitas, mas mesmo assim, a gente não faz infinitas. Existe uma probabilidade de ter o top 10 de coisas que a gente faz a cada instante. E para quem não viu, veja, - everything, o filme lá do tudo, do todo o mundo.

Marcus Mendes

Everywhere, all at once.

Guilherme Silveira

LLMs para rodar esse agente. uma LLM é capaz de rodar vários agentes.

Você não precisa de várias, basta uma. Se uma basta para rodar vários agentes, eu poderia também rodar ela várias vezes num estilo cadeia de Markov para dar uma distribuição de probabilidade da próxima coisa que vai acontecer. E fazer acontecer a mais provável.

Não que a LLM me fala em uma pergunta solta, mas fazer acontecer a mais provável. Fazer eu digo assumir que aconteceu nesse universo simulado. Não estou dizendo que isso é paralelo ao nosso universo, com isso eu vou prever o futuro, não é?

Tô querendo simular o universo? Para simular o universo, colocam a gente lá, ele tem, entre aspas, infinitas possibilidades, a LLM pode dizer a distribuição estatística do que que seria o mais provável, definir que é isso que aconteceu e maravilha.

E você vê que tem P e P seguindo esse caminho, não através de estatística e etc e tal, mas outros caminhos, para tomar decisão desses agentes, através de várias LLMs, como eu falei, teoricamente, só precisa ir de uma.

Paulo Silveira

É que acho que teoricamente só precisa de uma, mas pode ser que você visse o treino das outras de uma forma ou outra, o que veio do prompt antigo, o impacto na decisão das outras. Mas enfim, se é uma ou várias...

Mário Souto

Mas eu acho que o que... Mas eu acho que o que... Por exemplo, me lembrou um pouco um experimento que estou vendo no Nintendinho essa semana, que pegaram tipo um The Sims e botaram lá simulando uma cidadezinha e o negócio roda e ele seguiria acontecendo.

Marcus Mendes

Eu ia comentar isso. Isso agora que o Guilherme comentou, é exatamente porque o mercado de jogos está empolgado com todas as tecnologias, né? de analogias, né?

Toda parte de geração de oldies, de storylines mesmo, né? Até, até por exemplo, as conversas de personagens, sei lá, você tá jogando um GTA que tem personagem conversando, blá blá blá, esse blá blá blá ser gerado automaticamente ali de uma forma inteligente, etc, conversas que fazem sentido, mas que ninguém escreveu, ninguém gravou e etc.

Tudo bem que aí tem a discussão de se tá substituindo um monte de emprego, mas a gente pode falar disso no outro mas ainda assim, para essas pequenas coisinhas aplicadas no mundo dos jogos, isso que Guilherme comentou, é o exemplo perfeito de por que esse mercado está tão empolgado, investido tanto nessa, até no avanço da tecnologia e jeito diferente de implementar.

Porque você ter um universo que se rege e evolui e anda sozinho é perfeito para você ter esses jogos especialmente de ambientes infinitos, diversos infinitos, um, sei lá, no menos, sky da vida, coisa desse tipo.

Guilherme Silveira

E o que eu acho que é o que eu tento levar um alguns passos à frente eu acho teoricamente é de que a gente está assumindo então que ela é capaz de dizer coisas valiosas não perfeitas para o futuro dessas simulações universos. Mas ela é capaz de dizer isso do futuro ela também é capaz de dizer do passado. Ela é capaz de estimar quando alguma coisa se perguntar para o NPC desses jogos quando foi que você nasceu ela vai falar 15 de de outubro de 2013.

Sei lá, ela vai falar, entendeu? Ela vai estimar quando isso aconteceu. Claro, dá pra ser mais refinada e etc. E tal. E aí tem essa cada que no jogo não funcionaria, porque no jogo existe um ser humano que percebeu, porque ele tá num outro universo, nós estamos em outro universo, nós perceberíamos erros. Se perguntasse de novo e respondesse outra coisa, a gente perceberia esse erro, nessa inconsistência. Mas entre...

Paulo Silveira

Guilherme, a gente não perceberia as pessoas erram a data de nascimento. Isso que é interessante.

Guilherme Silveira

Tudo bem, mas você entende que quem é um observador, quem é Deus do universo de baixo, percebe-se com consistências do universo de baixo. Então, quem tá no universo de baixo não percebe, porque só tá vivendo aquele momento.

Se a data de nascimento da pessoa era 15 de outubro de 2013, e agora ela passa a responder "não, é 13 de outubro de 2013". A partir daquele momento é 13 de outubro, não é mais 15, é 13, acabou. Todo passado sempre foi 13 a partir desse instante.

E a sacada que eu quero chegar com isso é de que a LLM, para ela simular um universo que seja consistente dentro do próprio universo, que é o que importa para a gente, o nosso universo só precisa ser consistente dentro do nosso universo, não precisa ser consistente para Deus.

Para ela ser consistente, ela não precisa armazenar todo o passado. Se o meu aniversário hoje é 18 de setembro, mas amanhã eu falar para vocês que é 17 de setembro, nem eu, nem vocês vão perceber, e a vida vai seguir.

Eu acho que é isso. A sacada doida, eu acho que é essa, que é LLM, ela seria capaz de simular, a gente não precisa de um estimulador super, mais complexo, eu não sei o que, LLM, claro, quanto mais rica, melhor, poderiam ser capazes de simular universos consistentes, muito interessantes.

Paulo Silveira

Aí, se eu falei para o Guilherme lembrar, essa explicação que o Guilherme deu e provou que eu não sou tão inteligente quanto ele, me lembra aquele demônio de Laplace, não é que, já 200 anos atrás os filósofos falavam, se você tiver toda informação do mundo presente e todas as leis da física, considerando que não há livre arbítrio ou não houvesse livre arbítrio, você consegue calcular o x +1 no tempo e o x -1, a função de x +1 e x -1, dado a função de x.

E o que parece é que as realidades bastam ser locais, você não precisa ter toda essa informação no universo simulado, você pode renderizando a realidade de parte a parte, como no matrix, se também você não precisa renderizar o universo.

Marcus Mendes

A gente também acha que aqui é uma simulação, inclusive também.

Paulo Silveira

Exato, então levanta todas essas teorias interessantes. E assim a gente fecha o nosso primeiro hipsters fora de controle. Espero que você tenha gostado, vamos trazer pessoas diferentes, assuntos diferentes, sempre nesse formato, no começo, algo muito prático e acionável e depois esse papo de bar que eu tenho certeza que você também está tendo e assustando sua família com as suas previsões, suas próprias previsões. Hipsters, abraços, tchau!

[Música] Este podcast foi produzido pela Alura, mergulha em tecnologia e faculdade FIAP.

Let's rock the future.

Edição, Rede Gigahertz de Podcasts.

[Música]

Paulo Silveira
Paulo Silveira

Paulo Silveira é CEO e cofundador da Alura. Bacharel e mestre em Ciência da Computação pela USP, teve sua carreira de formação em PHP, Java e nas maratonas de programação. Criou o Guj.com.br, o podcast do Hipsters.tech e o Like a Boss.

Veja outros artigos sobre Inteligência Artificial