Skip to content

Repositório do curso de Apache Spark Programming with Databricks da Databricks Academy

Notifications You must be signed in to change notification settings

AfonsoFeliciano/Apache-Spark-Programming-with-Databricks

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 

Repository files navigation

Apache Spark Programming with Databricks

Neste curso, torna-se possível visualizar em detalhes os conceitos da arquitetura Spark e diversos cenários de exemplo. Além disso, podemos observar como explorar e pré-processar conjuntos de dados aplicando uma variedade de transformações e ações do DataFrame Spark. O curso demonstra como realizar a ingestão de dados de vários formatos de arquivo (CSV, Parquet, etc) aplicando essas etapas de pré-processamento e gravando os dados em tabelas Delta. Tem-se um estudo de caso com o objetivo de transmitir dados armazenado em Delta demonstrando os principais conceitos de streaming estruturado. Por fim, poderão ser exploradas a interface do usuário do Spark e como realizar otimização de consultas, particionamento e armazenamento em cache bem como seu impacto no desempenho do cluster.

Este curso faz parte da rota de aprendizagem de Engenharia de Dados utilizando Databricks. De maneira resumida, seus principais objetivos são:

  • Identificar os principais recursos do Spark no Databricks
  • Descrever e realizar aplicações práticas sobre como os DataFrames são utilizados no Spark
  • Processar e analisar dados utilizando DataFrame spark
  • Visualizar como o Spark pode ser otimizado durante sua execução em cluster
  • Realizar aplicações Delta e Streaming Estruturado para processamento de dados streaming

About

Repositório do curso de Apache Spark Programming with Databricks da Databricks Academy

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages