Praticando Python: Strings e Regex

Strings e Regex - Trabalhando com Strings

Boas-vindas! Meu nome é Gabrielle Ribeiro, sou instrutora na Alura, e neste curso, vamos aprender sobre strings e regex (expressões regulares) em Python.

Audiodescrição: Gabrielle se descreve como uma mulher parda, de cabelo liso na altura dos ombros pintado de rosa, e olhos castanho-escuros. Ela veste uma camiseta alaranjada, está sentada em uma cadeira preta, e ao fundo, há uma parede clara iluminada em gradiente vermelho e azul, com uma guitarra preta pendurada à direita da instrutora.

Como trabalhar com strings?

O que são strings?

Começaremos explorando as strings. As strings são sequências de caracteres que utilizamos para representar algum texto. Elas podem ser delimitadas por aspas simples ou duplas, a depender da preferência ou do contexto de uso. Além disso, podemos utilizar aspas triplas para representar strings maiores, que incluem múltiplas linhas e quebras de linha.

mensagem = 'Olá, mundo!'
mensagem = "Python é incrível!"

texto = """Essa é uma string
que pode ter múltiplas
linhas."""

Métodos de manipulação

Ao trabalhar com strings, é comum querer alterar ou manipular o texto de alguma forma. Para isso, o Python oferece métodos de manipulação responsáveis por transformar, modificar ou analisar o texto das strings. A tabela abaixo apresenta os principais métodos de manipulação:

Método	Conceito	Exemplo	Saída
`strip()`	Remove espaços em branco (ou caracteres especificados) do início e fim da string.	`" exemplo ".strip()`	"exemplo"
`lower()`	Converte todos os caracteres da string para letras minúsculas.	`"EXEMPLO".lower()`	"exemplo"
`upper()`	Converte todos os caracteres da string para letras maiúsculas.	`"exemplo".upper()`	"EXEMPLO"
`replace()`	Substitui uma substring específica por outra na string.	`"Olá Mundo".replace("Mundo", "Python")`	"Olá Python"

Inicialmente, temos o método strip(), que remove espaços em branco ou caracteres especificados do início e do final da string. Em seguida, temos o método lower(), que converte todos os caracteres da string para letras minúsculas.

Abaixo, o método upper() converte para letras maiúsculas, e por fim, temos o método replace(), que substitui uma substring por outra na string.

Lembre-se! Uma substring é uma string menor dentro de uma string maior.

O que são f-strings?

Além desses métodos de manipulação, podemos incluir uma expressão ou variável em uma string. Para isso, usamos as f-strings do Python, que possuem a sintaxe da letra f e, entre aspas duplas e chaves, inserimos a variável desejada. Vamos entender isso melhor com um exemplo de código?

estudante = "Pedro"
nota = 10
mensagem = f"{estudante} tirou a nota {nota}!"

print(mensagem)

Criamos um código que informa o estudante e sua respectiva nota, colocando tudo em uma única string. Para representar isso, criamos uma variável responsável por armazenar o nome da pessoa estudante e outra por armazenar a nota.

A variável mensagem contém a string formatada, então usamos o f e, entre aspas duplas, passamos a string com as variáveis estudante e nota entre chaves.

Ao chamar print(mensagem), o texto "Pedro tirou a nota 10" será exibido.

Indexação de strings

Além de métodos e f-strings, podemos acessar um caractere individual de uma string usando a indexação de strings por meio de índices. Os índices começam no valor 0, representando o primeiro caractere da string, e utilizamos colchetes para declará-los:

texto = "Python"

print(texto[5])
print(texto[-1])

Temos a variável texto armazenando a string "Python". No primeiro print(), chamamos a variável texto e passamos, entre colchetes, o valor 5, que corresponde ao último índice da string. A palavra "Python" tem os índices 0, 1, 2, 3, 4, 5. Ao imprimir o índice 5, obtemos a letra "n".

Observação: também podemos trabalhar com índices negativos, como -1, por exemplo. Nesse caso específico, acessaremos o mesmo caractere "n" utilizando os índices 5 e -1.

O que é slicing?

A operação de slicing (fatiamento) permite extrair um pedaço da string.

A sintaxe do slicing envolve uma string seguida de abertura e fechamento de colchetes, que envolvem um valor inicial separado de um valor final por dois pontos (:). Também podemos definir um passo, que é o intervalo entre os índices, sendo essa uma informação opcional.

O índice de fim não está incluso na string final.

string[início:fim:passo]

Vamos analisar um exemplo prático de slicing?

texto = "Python"

print(texto[1:4])
print(texto[:3])
print(texto[::2])

O código começa com a declaração da variável texto armazenando a string "Python", seguida de alguns print() que realizam a operação de slicing. No primeiro print(), extraímos os caracteres da posição 1 até a posição 3, definindo o início como 1 e o final como 4, resultando na string "yth".

Já no segundo slicing, não definimos o início, então o Python interpreta como se começasse no índice 0. Nesse caso, definimos o fim como 3, extraindo os três primeiros caracteres, o que resulta na string "Pyt" como retorno.

Para concluir, no último print(), realizamos o slicing sem definir início ou fim, mas com um passo definido como 2, resultando na string "Pto".

Conhecendo o operador `in`

Outro operador interessante é o in, que verifica se uma substring está presente em uma string.

texto = "Python"

print("Py" in texto)

print("Java" in texto)

Novamente, temos texto armazenando "Python". No primeiro print(), verificamos se a substring "Py" está presente usando in texto. Como essa informação é verdade, o print() retorna True. No último print(), verificamos se "Java" está presente; como é falso, o print() exibe False.

Conhecendo o método `startswith()`

O método startswith() verifica se a string começa com uma substring específica, retornando True ou False como resposta.

texto = "Python"

print(texto.startswith("Py"))

print(texto.startswith("py"))

No código acima, o primeiro print() verifica se texto começa com "Py", e o resultado é True. Já no segundo print(), verificamos com "py" em minúsculo, resultando em False devido à diferenciação entre maiúsculas e minúsculas no Python.

Conhecendo o método `endswith()`

Por fim, o método endswith() verifica se a string termina com uma substring específica.

No exemplo de código abaixo, verificamos se a string termina com "on", resultando em True. Da mesma forma, verificamos se ela termina com "ton", resultando em False.

texto = "Python"

print(texto.endswith("on"))

print(texto.endswith("ton"))

Conclusão

Agora que entendemos como trabalhar com strings, aprenderemos a utilizar regex (expressões regulares) em associação a elas. Nos encontramos no próximo vídeo!

Strings e Regex - Aplicando Regex

Já aprendemos a trabalhar com strings em Python, mas como lidar com strings mais complexas? Para isso, há uma ferramenta chamada expressão regular, também conhecida como regex.

Como trabalhar com expressões regulares?

O que são expressões regulares?

As expressões regulares nos auxiliam na busca, manipulação e validação de padrões mais complexos em strings. Podemos utilizá-las ao lidar com e-mails, números de telefone, validações de entradas em aplicações, entre outros. Vamos entender quais elementos compõem uma regex?

Caracteres literais

A primeira coisa que temos em uma expressão regular são os caracteres literais, isto é, os próprios caracteres da string. Por exemplo: se quisermos encontrar a palavra "Python" em um texto, podemos usar a regex "Python" com esses caracteres, da forma que escrevemos normalmente.

Nesse caso, o caractere corresponderá a ele mesmo. A única exceção são os caracteres especiais, que, na regex, terão um significado especial. Para usá-los como caracteres literais, precisamos escapá-los com a barra invertida (\).

Caracteres especiais

Os caracteres especiais nas expressões regulares são símbolos que têm um significado específico, permitindo-nos criar padrões complexos. A tabela abaixo traz os principais caracteres especiais:

Símbolo	Descrição
`.`	Corresponde a qualquer caractere, exceto nova linha
`\d`	Corresponde a qualquer dígito (0-9)
`\D`	Corresponde a qualquer caractere que não seja um dígito
`\w`	Corresponde a qualquer caractere alfanumérico (letras, números e underline)
`\W`	Corresponde a qualquer caractere que não seja alfanumérico
`\s`	Corresponde a qualquer espaço em branco (espaço, tabulação, etc.)
`\S`	Corresponde a qualquer caractere que não seja espaço em branco

Classe de caracteres

Na sequência, temos as classes de caracteres, que são grupos de caracteres definidos entre colchetes para corresponder a um padrão específico. Novamente, temos uma tabela que traz os símbolos utilizados nessas classes de caracteres e a descrição do que eles correspondem:

Símbolo	Descrição
`[abc]`	Corresponde a qualquer caractere 'a', 'b' ou 'c'
`[^abc]`	Corresponde a qualquer caractere que não seja 'a', 'b' ou 'c'
`[a-z]`	Corresponde a qualquer caractere de 'a' a 'z' (minúsculas)
`[A-Z]`	Corresponde a qualquer caractere de 'A' a 'Z' (maiúsculas)
`[0-9]`	Corresponde a qualquer dígito (0-9)
`[a-zA-Z]`	Corresponde a qualquer letra, maiúscula ou minúscula

O que são quantificadores?

Temos também os quantificadores, que dentro das expressões regulares, servem para especificar a quantidade de ocorrências de algum padrão. Trouxemos uma tabela com os principais quantificadores e a descrição de cada um deles:

Símbolo	Descrição
`*`	Corresponde a 0 ou mais ocorrências do padrão anterior
`+`	Corresponde a 1 ou mais ocorrências do padrão anterior
`?`	Corresponde a 0 ou 1 ocorrência do padrão anterior
`{n}`	Corresponde exatamente a n ocorrências do padrão anterior
`{n,}`	Corresponde a n ou mais ocorrências do padrão anterior
`{n,m}`	Corresponde entre n e m ocorrências do padrão anterior

Como construir uma expressão regular?

Agora, vamos entender como construir uma regex através de um exemplo.

Imagine que queremos construir uma regex para verificar o formato de um número de telefone. O número terá primeiro o DDD entre parênteses, seguido de um espaço, 4 ou 5 dígitos, um hífen e os 4 dígitos finais. Abaixo, temos uma regex que corresponde a esse padrão:

\(\d{2}\)\s\d{4,5}-\d{4}

Para chegar a essa expressão regular, primeiro, especificamos os dois dígitos entre parênteses, escapando o parêntese com a barra invertida (\). Entre os parênteses, chamamos \d, que representa dígitos de 0 a 9, e entre chaves, passamos a quantidade de dígitos, que são 2.

Na sequência, representamos o espaço com \s, e depois os 4 ou 5 dígitos para o telefone, chamando \d e o quantificador que especifica de 4 a 5 dígitos. Feito isso, especificamos o hífen como um caractere literal e, por fim, representamos os 4 dígitos finais com \d e o quantificador 4.

Trouxemos ainda um segundo exemplo, que apresenta a expressão regular de uma data no formato dia/mês/ano. Observe abaixo a regex e a explicação dos detalhes:

\b\d{2}/\d{2}/\d{4}\b

\b — Limite de palavra para garantir que a correspondência seja uma data completa;
\d{2} — Dois dígitos para o dia e o mês;
/ — O caractere de barra literal;
\d{4} — Quatro dígitos para o ano;
\b — Limite de palavra no final para garantir que não haja caracteres extras após a data.

Como aplicar expressões regulares em códigos Python?

Para aplicar regex em códigos Python, existe o módulo re, que oferece suporte para trabalhar diretamente com essas expressões regulares.

Para utilizá-lo no código, basta fazer a importação com o comando import re. Dessa forma, já conseguiremos trabalhar com o que esse módulo oferece.

import re

Conhecendo os métodos do módulo `re`

Nesse módulo, há alguns métodos que facilitam a interação das strings com as expressões. A tabela abaixo traz os principais métodos desse módulo, com a descrição, um exemplo de uso e a saída:

Método	Descrição	Exemplo de uso	Saída
`search()`	Procura por um padrão em qualquer parte da string. Retorna o primeiro resultado encontrado.	`re.search(r"\d+", "Há 1234 alunos")`	Retorna '1234'
`match()`	Verifica se o padrão corresponde ao início da string.	`re.match(r"abc", "abcdef")`	Retorna um match com 'abc'
`findall()`	Retorna todas as ocorrências do padrão em uma lista.	`re.findall(r"\d+", "Eu tenho 3 gatos e 2 cachorros")`	Retorna a lista ['3', '2']
`sub()`	Substitui ocorrências do padrão por uma string.	`re.sub(r"\d", "#", "Meu número é 1234")`	Retorna 'Meu número é ####'

O primeiro método é o search(), que faz uma busca de padrão na string e retorna o resultado encontrado. Na sequência, temos o método match(), que verifica se o padrão especificado corresponde ao início de alguma string.

Temos também o método findall(), que retorna todas as ocorrências da expressão regular em formato de lista. Por fim, o método sub() substitui todas as ocorrências da regex por uma string especificada na string principal.

Conhecendo o método `group()`

O método group(), normalmente, é aplicado quando já usamos algum dos métodos anteriores, como o search() ou o match(), que trazem a correspondência encontrada pela regex. Para acessar a correspondência, podemos usar esse método.

Analisando um exemplo de código

Vamos analisar um exemplo de código para entender melhor como o método group() funciona, como usar o módulo re, e todas as questões envolvendo expressões regulares em Python.

import re

texto = "Entre em contato pelo email support@example.com"

padrao_email = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'

resultado = re.search(padrao_email, texto)

if resultado:
    print("Email encontrado:", resultado.group())
else:
    print("Nenhum email encontrado.")

O código acima traz um texto, dentro do qual queremos encontrar um e-mail (padrao_email). Para isso, construímos uma regex e fizemos essa busca.

Inicialmente, fizemos a importação do módulo re e declaramos a variável texto com a string "Entre em contato pelo email support@example.com".

Na sequência, definimos o padrao_email, que será a regex que queremos buscar na string texto. Para especificar um regex em Python, precisamos começar com a letra r, de modo que o Python entenda que se trata de uma expressão regular.

Feito isso, entre aspas simples, podemos construir o padrão de expressão regular com todas as ferramentas que conhecemos anteriormente.

A expressão regular abaixo serve para buscar o formato de e-mail desejado:

r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'

Na sequência, criamos a variável resultado e chamamos o módulo re.search(), para usar o método que realiza busca de padrão de texto em string.

Passamos para esse método a regex, armazenada na variável padrao_email, e, na sequência, informamos a string, que, nesse caso, é texto.

O método search() faz a busca em texto, e, se encontrar algum e-mail que corresponda ao padrão especificado, ele salva na variável resultado.

Por fim, no bloco condicional, fazemos a verificação se a variável resultado possui algo armazenado. Se o e-mail for encontrado, imprimimos "Email encontrado:" e o e-mail em si, chamando a variável resultado com o método group().

Caso o e-mail não tenha sido encontrado, ou seja, se o resultado estiver vazio, chamamos o bloco else, que imprime a mensagem "Nenhum email encontrado.".

Ferramentas

Agora que entendemos como utilizar expressões regulares em Python, é importante mencionar que existem algumas ferramentas online que podemos utilizar. No site regex101, por exemplo, podemos validar e depurar nossas expressões regulares antes de inseri-las no código efetivamente.

Nessa página, há um campo para inserir a expressão regular e um campo para testar a string. Com isso, conseguimos garantir que as expressões regulares estarão corretas.

Conclusão

Dica! Caso queira se aprofundar em expressões regulares, recomendamos o curso sobre expressões regulares, disponível na plataforma da Alura.

Agora que aprendemos sobre strings e regex, teremos uma série de exercícios para você colocar em prática os conhecimentos adquiridos. Você pode compartilhar sua jornada de aprendizagem nas redes sociais com a hashtag #AprendiNaAlura. Até a próxima!

Sobre o curso Praticando Python: Strings e Regex

O curso Praticando Python: Strings e Regex possui 23 minutos de vídeos, em um total de 15 atividades. Gostou? Conheça nossos outros cursos de Python em Programação, ou leia nossos artigos de Programação.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Strings e regex

Praticando Python: Strings e Regex

Strings e Regex - Trabalhando com Strings

Como trabalhar com strings?

O que são strings?

Métodos de manipulação

O que são f-strings?

Indexação de strings

O que é slicing?

Conhecendo o operador `in`

Conhecendo o método `startswith()`

Conhecendo o método `endswith()`

Conclusão

Strings e Regex - Aplicando Regex

Como trabalhar com expressões regulares?

O que são expressões regulares?

Caracteres literais

Caracteres especiais

Classe de caracteres

O que são quantificadores?

Como construir uma expressão regular?

Como aplicar expressões regulares em códigos Python?

Conhecendo os métodos do módulo `re`

Conhecendo o método `group()`

Analisando um exemplo de código

Ferramentas

Conclusão

Sobre o curso Praticando Python: Strings e Regex

Aprenda Python acessando integralmente esse e outros cursos, comece hoje!

Plus

Pro

Ultra

Cursos

Cursos universitários FIAP

Praticando Python: Strings e Regex

Strings e Regex - Trabalhando com Strings

Como trabalhar com strings?

O que são strings?

Métodos de manipulação

O que são f-strings?

Indexação de strings

O que é slicing?

Conhecendo o operador in

Conhecendo o método startswith()

Conhecendo o método endswith()

Conclusão

Strings e Regex - Aplicando Regex

Como trabalhar com expressões regulares?

O que são expressões regulares?

Caracteres literais

Caracteres especiais

Classe de caracteres

O que são quantificadores?

Como construir uma expressão regular?

Como aplicar expressões regulares em códigos Python?

Conhecendo os métodos do módulo re

Conhecendo o método group()

Analisando um exemplo de código

Ferramentas

Conclusão

Sobre o curso Praticando Python: Strings e Regex

Aprenda Python acessando integralmente esse e outros cursos, comece hoje!

Plus

Pro

Ultra

Cursos

Cursos universitários FIAP

Conhecendo o operador `in`

Conhecendo o método `startswith()`

Conhecendo o método `endswith()`

Conhecendo os métodos do módulo `re`

Conhecendo o método `group()`