当前位置:网站首页 > Java教程 > 正文

java spark 教程 pdf



下图描述了Spark的不同组件。
spark
Apache Spark Core(核心)
Spark Core是所有其他功能都基于的Spark平台的基础通用执行引擎。它提供了外部存储系统中的内存中计算和引用数据集。
Spark SQL
Spark SQL是Spark Core之上的组件,它引入了一个称为SchemaRDD的新数据抽象,该抽象为结构化和半结构化数据提供支持。
Spark Streaming(流)
Spark Streaming利用Spark Core的快速调度功能来执行流分析。它以小批量提取数据,并对那些小批量数据执行RDD(弹性分布式数据集)转换。
MLlib(机器学习库)
由于基于分布式内存的Spark体系结构,MLlib是Spark之上的分布式机器学习框架。根据基准,它是MLlib开发人员针对交替最小二乘(ALS)实现而完成的。Spark MLlib的速度是Apache Mahout的基于Hadoop磁盘的版本的9倍(在Mahout获得Spark接口之前)。
GraphX
GraphX是基于Spark的分布式图形处理框架。它提供了一个用于表达图形计算的API,该API可以通过使用Pregel抽象API对用户定义的图形进行建模。它还为此抽象提供了优化的运行时。

  • 上一篇: 兄弟连java教程12
  • 下一篇: Java天气教程
  • 版权声明


    相关文章:

  • 兄弟连java教程122024-12-31 22:50:05
  • 菜鸟教程 java配置2024-12-31 22:50:05
  • java教程注释2024-12-31 22:50:05
  • 最新黑马Java教程2024-12-31 22:50:05
  • java取模教程视频2024-12-31 22:50:05
  • Java天气教程2024-12-31 22:50:05
  • java if教程2024-12-31 22:50:05
  • java低代码教程2024-12-31 22:50:05
  • java webservice 视频教程2024-12-31 22:50:05
  • 刷黑曜石教程java版2024-12-31 22:50:05