Building a real-time big data pipeline 3 : Spark SQL, Hadoop, Scala - Genomics

Building a real-time big data pipeline 3 : Spark SQL, Hadoop, Scala

Apache Spark is an open-source cluster computing system that provides high-level API in Java, Scala, Python and R.Spark also packaged with higher-level libraries for SQL, machine learning, streaming, and graphs. Spark SQL is Spark’s package for working with structured data.

>>>

Related Posts

Building a real-time big data pipeline 9: Spark MLlib, Regression, Python

Building a real-time big data pipeline 10: Spark Streaming, Kafka, Java

Building a real-time big data pipeline 8: Spark MLlib, Regression, R