大数据知识点总结(7)

总结时间：2021-08-31 手机版

　　22、MLlib是spark的可以扩展的机器学习库，由以下部分组成：通用的学习算法和工具类，包括分类，回归，聚类，协同过滤，降维

　　23、SparkR实现了分布式的data frame，支持类似查询、过滤以及聚合的操作

　　24、RDD，全称为Resilient Distributed Datasets，是个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来操作这些数据。

　　25、RDD的特点：

　　1. 它是在集群节点上的不可变的、已分区的集合对象。

　　2. 通过并行转换的方式来创建如(map, filter, join, etc )。

　　3. 失败自动重建。

　　4. 可以控制存储级别(内存、磁盘等)来进行重用。

　　5. 必须是可序列化的。

　　6. 是静态类型的。

　　26、RDD核心概念

　　Client：客户端进程，负责提交作业到Master。

　　Master：Standalone模式中主控节点，负责接收Client提交的作业，管理Worker，并命令Worker启动分配Driver的资源和启动Executor的资源。

　　Worker：Standalone模式中slave节点上的守护进程，负责管理本节点的资源，定期向Master汇报心跳，接收Master的命令，启动Driver和Executor。

　　Driver：一个Spark作业运行时包括一个Driver进程，也是作业的主进程，负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler，TaskScheduler。

　　Executor：即真正执行作业的地方，一个集群一般包含多个Executor，每个Executor接收Driver的命令Launch Task，一个Executor可以执行一到多个Task。

　　27、RDD常见术语

　　DAGScheduler：实现将Spark作业分解成一到多个Stage，每个Stage根据RDD的Partition个数决定Task的个数，然后生成相应的Task set放到TaskScheduler中。

以上内容来自互联网，请自行判断内容的正确性。若本站收录的信息无意侵犯了贵司版权，请给我们来信(zaixianzuowenhezi@gmail.com)，我们会及时处理和回复，谢谢.