Building a real-time big data pipeline 2 : Spark Core, Hadoop, Scala - Genomics

Building a real-time big data pipeline 2 : Spark Core, Hadoop, Scala

Apache Spark is a general-purpose, in-memory cluster computing engine for large scale data processing. Spark can also work with Hadoop and its modules. The real-time data processing capability makes Spark a top choice for big data analytics. The spark core has two parts. 1) Computing engine and 2) Spark Core APIs.

>>>

Related Posts

Building a real-time big data pipeline 9: Spark MLlib, Regression, Python

Building a real-time big data pipeline 10: Spark Streaming, Kafka, Java

Building a real-time big data pipeline 8: Spark MLlib, Regression, R