Leveraging on Docker image using ECR and AWS Lambda to process Spark workloads PoC planned, soon on my GitHub 🙂 https://aws.plainenglish.io/spark-on-aws-lambda-c65877c0ac96

Escrito por Luis Yamadanovembro 5, 2021

Handling bad data with Spark SQL

https://python.plainenglish.io/how-to-handle-bad-data-in-spark-sql-5e0276d37ca1

Escrito por Luis Yamadasetembro 9, 2020

Shuffling Apache Spark

Ver no Medium.com

Escrito por Luis Yamadaagosto 31, 2020

ACID Compliance in your Data Lake? Delta Lake

https://towardsdatascience.com/delta-lake-with-spark-what-and-why-6d08bef7b963

Escrito por Luis Yamadaagosto 24, 2020

Estratégia para UPDATE de alta volumetria de dados no Lake (object store, não DW)

Escrito por Luis Yamadaagosto 24, 2020

Série de 6 artigos sobre Tunning de jobs spark (custo/eficiência)

Escrito por Luis Yamadaagosto 24, 2020

Soluções para erros comuns de jobs Spark

Escrito por Luis Yamadajulho 29, 2020

Boas práticas para cálculo de cores e memory vs Spark

https://spoddutur.github.io/spark-notes/distribution_of_executors_cores_and_memory_for_spark_application.html https://github.com/vaquarkhan/vaquarkhan/wiki/How-to-calculate-node-and-executors-memory-in-Apache-Spark

Escrito por Luis Yamadajulho 29, 2020julho 29, 2020

Boas práticas (realmente aplicáveis) – Spark

https://www.bi4all.pt/en/news/en-blog/apache-spark-best-practices/

Escrito por Luis Yamadajunho 10, 2020

Tuning no código Spark

https://towardsdatascience.com/apache-spark-optimization-toolkit-17cf3e491992

Escrito por Luis Yamadajunho 10, 2020

Spark 3.0 – Preview

Escrito por Luis Yamadajunho 7, 2020

PySpark + Kubernetes (Hands-on TOP)

https://towardsdatascience.com/ignite-the-spark-68f3f988f642

Escrito por Luis Yamadajunho 7, 2020

Pros e Cons – Spark + Kubernetes

https://www.datamechanics.co/blog-post/pros-and-cons-of-running-apache-spark-on-kubernetes

Escrito por Luis Yamadajunho 6, 2020

Vaex – 1 bilhão de rows? We can do it

https://towardsdatascience.com/how-to-process-a-dataframe-with-billions-of-rows-in-seconds-c8212580f447

Escrito por Luis Yamadamaio 28, 2020

Rodando Spark sobre K8S (local)

https://towardsdatascience.com/how-to-build-spark-from-source-and-deploy-it-to-a-kubernetes-cluster-in-60-minutes-225829b744f9

Escrito por Luis Yamadamaio 28, 2020

Pipeline (fast e batch) – Spark Streaming, HDFS, Cassandra

lyamada-tech blog

Tag: spark

Pandas on Spark

Recommendations for optmizing a Spark job

Spark Structured Streaming (on Amazon EMR) + Amazon MSK

Spark on Kubernetes cluster – Sample

PySpark on AWS Lambda

Handling bad data with Spark SQL

Shuffling Apache Spark

ACID Compliance in your Data Lake? Delta Lake

Estratégia para UPDATE de alta volumetria de dados no Lake (object store, não DW)

Série de 6 artigos sobre Tunning de jobs spark (custo/eficiência)

Soluções para erros comuns de jobs Spark

Boas práticas para cálculo de cores e memory vs Spark

Boas práticas (realmente aplicáveis) – Spark

Tuning no código Spark

Spark 3.0 – Preview

PySpark + Kubernetes (Hands-on TOP)

Pros e Cons – Spark + Kubernetes

Vaex – 1 bilhão de rows? We can do it

Rodando Spark sobre K8S (local)

Pipeline (fast e batch) – Spark Streaming, HDFS, Cassandra