matlab.compiler.mlspark.RDD 类

命名空间: matlab.compiler.mlspark
超类:

表示 Spark 弹性分布式数据集 (RDD) 的接口类

描述

弹性分布式数据集或 RDD 是 Spark™ 中的编程抽象。它表示分布在许多节点上并可并行操作的元素集合。Spark 中的所有工作都表示为创建新的 RDD、转换现有的 RDD 或调用 RDD 上的操作来计算结果。您可以通过下面两种方式创建 RDD：

通过加载外部数据集
通过并行化驱动程序中的对象集合

一旦创建，就可以使用 RDD 执行两种类型的操作：转换和操作。

构造

只能使用 RDD 类的方法创建 SparkContext 对象。为方便起见，下面列出了用于创建 RDD 的 SparkContext 方法集合。有关更多信息，请参阅 SparkContext 类的文档。

SparkContext 方法名称	目的
`parallelize`	根据局部 MATLAB^® 值创建 RDD
`datastoreToRDD`	将 MATLAB `datastore` 转换为 Spark `RDD`
`textFile`	从文本文件创建 RDD

一旦使用 SparkContext 类中的方法创建了 RDD，您就可以使用 RDD 类中的任何方法来操作您的 RDD。

属性

此类的属性是隐藏的。

方法

变换

aggregateByKey	使用给定的组合函数和中性的“零值”聚合每个键的值
cartesian	创建是两个 RDD 的笛卡尔积的 RDD
coalesce	减少 RDD 中的分区数
cogroup	将共享相同密钥的 RDD 中的数据分组
combineByKey	使用一组自定义的聚合函数组合每个键的元素
distinct	返回一个包含现有 RDD 的不同元素的新 RDD
filter	返回仅包含满足谓词函数的元素的新 RDD
flatMap	首先将函数应用于现有 RDD 的所有元素，然后展平结果，从而返回新的 RDD
flatMapValues	通过 `flatMap` 方法传递键-值对组 RDD 中的每个值，而不改变键
foldByKey	使用关联函数和中性的“零值”合并每个键的值
fullOuterJoin	在两个键-值对组 RDD 之间执行完全外联接
glom	合并 RDD 每个分区内的所有元素
groupBy	返回分组项目的 RDD
groupByKey	将 RDD 中每个键的值分组为单个序列
intersection	返回一个 RDD 与另一个 RDD 的集合交集
join	返回包含所有具有匹配键的元素对的 RDD
keyBy	通过应用函数创建 RDD 中元素的元组
keys	返回包含每个元组的键的 RDD
leftOuterJoin	执行左外联
map	通过对输入 RDD 的每个元素应用一个函数来返回新的 RDD
mapValues	将键-值对组 RDD 中的每个值通过 map 函数传递，而不修改键
reduceByKey	使用关联减少函数合并每个键的值
repartition	返回一个具有恰好 `numPartitions` 个分区的新 RDD
rightOuterJoin	执行 right outer join
sortBy	根据给定函数对 RDD 进行排序
sortByKey	按键对由键-值对组成的 RDD 进行排序
subtract	返回两个 RDD 之间的差集的结果值
subtractByKey	返回两个 RDD 之间的键差集所产生的键-值对组
union	返回一个 RDD 与另一个 RDD 的并集
values	返回包含每个元组值的 RDD
zip	将一个 RDD 与另一个 RDD 压缩在一起
zipWithIndex	使用元素索引压缩 RDD
zipWithUniqueId	使用生成的唯一 Long ID 压缩 RDD

操作

aggregate	对每个分区的元素进行聚合，然后将所有分区的结果聚合为单个值
collect	返回包含 RDD 中的所有元素的 MATLAB 元胞数组
collectAsMap	将 RDD 中的键-值对组作为 MATLAB `containers.Map` 对象返回
count	对 RDD 中的元素进行计数
fold	聚合每个分区的元素以及所有分区的后续结果
reduce	使用指定的满足交换律和结合律的函数减少 RDD 的元素
reduceByKeyLocally	使用关联的 Reduce 函数合并每个键的值，但立即将结果返回给驱动
saveAsKeyValueDatastore	将键值 RDD 保存为二进制文件，可以使用 `datastore` 函数读取
saveAsTallDatastore	将 RDD 作为 MATLAB tall 数组保存到二进制文件中，该文件可使用 `datastore` 函数读回
saveAsTextFile	将 RDD 保存为文本文件

操作

cache	将 RDD 存储在内存中
checkpoint	标记 RDD 以设置检查点
getCheckpointFile	获取 RDD 检查点文件的名称
getDefaultReducePartitions	获取 RDD 中默认的 Reduce 分区数量
getNumPartitions	返回 RDD 中的分区数
isEmpty	确定 RDD 是否包含任何元素
keyLimit	返回在溢出到磁盘之前可以存储的唯一键的阈值
persist	设置 RDD 存储级别的值，以便在计算后跨操作持久保存
toDebugString	获取 RDD 及其递归依赖项的描述，以便进行调试
unpersist	将 RDD 标记为非持久性，从内存和磁盘中删除它的所有模块

详细信息

全部展开

弹性分布式数据集

弹性分布式数据集或 RDD 是 Spark 中的编程抽象。它表示分布在许多节点上并可并行操作的元素集合。RDD 往往具有容错性。您可以通过下面两种方式创建 RDD：

通过加载外部数据集。
通过并行化驱动程序中的对象集合。

创建后，您可以使用 RDD 执行两种类型的操作：转换 (transformations) 和操作 (actions)。

变换

转换是对现有 RDD 的操作，返回新的 RDD。许多（但不是全部）转换都是逐元素操作。

操作

操作根据 RDD 计算最终结果，并将该结果返回给驱动或将其保存到外部存储系统，如 HDFS™。

matlab.compiler.mlspark.RDD 类

描述

构造

属性

方法

变换

操作

操作

详细信息

弹性分布式数据集

变换

操作

参考资料

版本历史记录

另请参阅

类

主题