主要内容

本页采用了机器翻译。点击此处可查看最新英文版本。

matlab.compiler.mlspark.RDD 类

命名空间: matlab.compiler.mlspark
超类:

表示 Spark 弹性分布式数据集 (RDD) 的接口类

描述

弹性分布式数据集RDD 是 Spark™ 中的编程抽象。它表示分布在许多节点上并可并行操作的元素集合。Spark 中的所有工作都表示为创建新的 RDD、转换现有的 RDD 或调用 RDD 上的操作来计算结果。您可以通过下面两种方式创建 RDD:

  • 通过加载外部数据集

  • 通过并行化驱动程序中的对象集合

一旦创建,就可以使用 RDD 执行两种类型的操作:转换操作

构造

只能使用 RDD 类的方法创建 SparkContext 对象。为方便起见,下面列出了用于创建 RDD 的 SparkContext 方法集合。有关更多信息,请参阅 SparkContext 类的文档。

SparkContext 方法名称目的
parallelize

根据局部 MATLAB® 值创建 RDD

datastoreToRDD

将 MATLAB datastore 转换为 Spark RDD

textFile

从文本文件创建 RDD

一旦使用 SparkContext 类中的方法创建了 RDD,您就可以使用 RDD 类中的任何方法来操作您的 RDD。

属性

此类的属性是隐藏的。

方法

变换

aggregateByKey使用给定的组合函数和中性“零值”聚合每个键的值
cartesian创建是两个 RDD 的笛卡尔积的 RDD
coalesce减少 RDD 中的分区数
cogroup对两个 RDD 中具有相同键的数据进行分组
combineByKey使用一组自定义的聚合函数组合每个键的元素
distinct返回一个包含现有 RDD 中的不同元素的新 RDD
filter返回一个仅包含满足谓词函数条件的元素的新 RDD
flatMap通过首先对现有 RDD 的所有元素应用一个函数,然后将结果扁平化,返回一个新的 RDD
flatMapValues将键-值对组 RDD 中的每个值传递给 flatMap 方法,但不更改键
foldByKey使用满足结合律的函数和中性“零值”合并每个键的值
fullOuterJoin在两个键-值对组 RDD 之间执行完全外联
glom合并 RDD 的每个分区内的所有元素
groupBy返回分组项目的 RDD
groupByKey将 RDD 中每个键对应的值分组到单个序列中
intersection返回一个 RDD 与另一个 RDD 的集合交集
join返回一个包含具有匹配键的所有元素对组的 RDD
keyBy通过应用函数创建 RDD 中元素的元组
keys返回包含每个元组的键的 RDD
leftOuterJoin执行左外联
map通过对输入 RDD 的每个元素应用一个函数来返回新的 RDD
mapValues将键-值对组 RDD 中的每个值传递给映射函数,但不修改键
reduceByKey使用满足结合律的 reduce 函数合并每个键的值
repartition返回恰好具有 numPartitions 个分区的新 RDD
rightOuterJoin执行右外联
sortBy根据给定函数对 RDD 进行排序
sortByKey按键对由键-值对组组成的 RDD 进行排序
subtract返回两个 RDD 之间的差集的结果值
subtractByKey返回两个 RDD 之间的键差集对应的键-值对组
union返回一个 RDD 与另一个 RDD 的并集
values返回包含每个元组的值的 RDD
zip将一个 RDD 与另一个 RDD 配对
zipWithIndex使用元素索引压缩 RDD
zipWithUniqueId使用生成的唯一 Long ID 压缩 RDD

操作

aggregate对每个分区的元素进行聚合,然后将所有分区的结果聚合为单个值
collect返回包含 RDD 中的所有元素的 MATLAB 元胞数组
collectAsMap将 RDD 中的键-值对组作为 MATLAB containers.Map 对象返回
count对 RDD 中的元素进行计数
fold对每个分区的元素以及随后所有分区的结果进行聚合
reduce使用指定的满足交换律和结合律的函数减少 RDD 的元素
reduceByKeyLocally使用满足结合律的 reduce 函数合并每个键的值,但立即将结果返回给驱动程序
saveAsKeyValueDatastore将键-值 RDD 保存为可以使用 datastore 函数读回的二进制文件
saveAsTallDatastore将 RDD 作为 MATLAB tall 数组保存到二进制文件,该二进制文件可以使用 datastore 函数读回
saveAsTextFile将 RDD 保存为文本文件

操作

cache将 RDD 存储在内存中
checkpoint标记 RDD 以设置检查点
getCheckpointFile获取对 RDD 执行检查点操作时用来保存输出的文件的名称
getDefaultReducePartitions获取 RDD 中默认 reduce 分区的数量
getNumPartitions返回 RDD 中的分区数
isEmpty确定 RDD 是否包含任何元素
keyLimit返回在溢写到磁盘之前可以存储的唯一键的阈值
persist设置 RDD 存储级别的值,以便在计算后跨操作持久保存
toDebugString获取 RDD 及其递归依赖关系的描述以用于调试
unpersist将 RDD 标记为非持久性的,并从内存和磁盘中删除它的所有数据块

详细信息

全部展开

参考资料

有关更多信息,请参阅最新的 Spark 文档。

版本历史记录

在 R2016b 中推出