欢迎来到010在线作文网!

大数据知识点总结(7)

总结 时间:2021-08-31 手机版

  22、MLlib是spark的可以扩展的机器学习库,由以下部分组成:通用的学习算法和工具类,包括分类,回归,聚类,协同过滤,降维

  23、SparkR实现了分布式的data frame,支持类似查询、过滤以及聚合的操作

  24、RDD,全称为Resilient Distributed Datasets,是个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。

  25、RDD的特点:

  1. 它是在集群节点上的不可变的、已分区的集合对象。

  2. 通过并行转换的方式来创建如(map, filter, join, etc )。

  3. 失败自动重建。

  4. 可以控制存储级别(内存、磁盘等)来进行重用。

  5. 必须是可序列化的。

  6. 是静态类型的。

  26、RDD核心概念

  Client:客户端进程,负责提交作业到Master。

  Master:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动分配Driver的资源和启动Executor的资源。

  Worker:Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Master的命令,启动Driver和Executor。

  Driver: 一个Spark作业运行时包括一个Driver进程,也是作业的主进程,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。

  Executor:即真正执行作业的地方,一个集群一般包含多个Executor,每个Executor接收Driver的命令Launch Task,一个Executor可以执行一到多个Task。

  27、RDD常见术语

  DAGScheduler: 实现将Spark作业分解成一到多个Stage,每个Stage根据RDD的Partition个数决定Task的个数,然后生成相应的Task set放到TaskScheduler中。


本文来源http://www.010zaixian.com/shiyongwen/zongjie/390418.htm
以上内容来自互联网,请自行判断内容的正确性。若本站收录的信息无意侵犯了贵司版权,请给我们来信(zaixianzuowenhezi@gmail.com),我们会及时处理和回复,谢谢.