A formação Apache Spark com Python da Alura tem como objetivo preparar o(a) aluno(a) para trabalhar com Engenharia de Dados, Data Science e Machine Learning em um contexto de Big Data.
Funciona como um guia de aprendizado para auxiliar pessoas interessadas em entrar no mercado de trabalho e também como mecanismo de consulta para profissionais experientes.
O QUE É O APACHE SPARK?
O Apache Spark é um framework para computação distribuída que dá suporte para mais de uma linguagem de programação (Python, SQL, Scala, Java e R). Ele é utilizado para executar Engenharia de Dados, Data Science e Machine Learning em apenas um computador ou em um cluster. É uma ferramenta muito aplicada no contexto Big Data.
O QUE VAMOS APRENDER?
Nessa formação, vamos aprender a lidar com diferentes conjuntos de dados utilizando SQL de duas maneiras. Primeiro, fazendo uso de métodos específicos dos DataFrames Spark e, em um segundo momento, utilizando comandos SQL puros.
Por fim, vamos focar nossos estudos em modelos de Machine Learning com o uso do MLlib do Spark.
![Se você está com dúvida de qual sequência seguir nas formações de Engenharia de Dados, sugerimos que comece seus estudos pela formação Python para Data Science, em seguida faça a formação Primeiros passos com Engenharia de Dados. Após isso, siga pelo caminho de sua preferência: faça as formações Apache Spark com Python e Engenharia de Dados com Databricks, a formação AWS Data Lake: Construindo Pipelines na AWS e/ou a formação Apache Airflow. Seja qual for o caminho que você seguir, finalize a jornada com a formação Fundamentos de Governança de Dados.](https://cdn1.gnarususercontent.com.br/1/1223/db84725a-90c0-402d-b378-29d97b04fcce.png)