主要内容

本页采用了机器翻译。点击此处可查看最新英文版本。

matlab.compiler.mlspark.RDD 类

命名空间: matlab.compiler.mlspark
超类:

表示 Spark 弹性分布式数据集 (RDD) 的接口类

描述

弹性分布式数据集RDD 是 Spark™ 中的编程抽象。它表示分布在许多节点上并可并行操作的元素集合。Spark 中的所有工作都表示为创建新的 RDD、转换现有的 RDD 或调用 RDD 上的操作来计算结果。您可以通过下面两种方式创建 RDD:

  • 通过加载外部数据集

  • 通过并行化驱动程序中的对象集合

一旦创建,就可以使用 RDD 执行两种类型的操作:转换操作

构造

只能使用 RDD 类的方法创建 SparkContext 对象。为方便起见,下面列出了用于创建 RDD 的 SparkContext 方法集合。有关更多信息,请参阅 SparkContext 类的文档。

SparkContext 方法名称目的
parallelize

根据局部 MATLAB® 值创建 RDD

datastoreToRDD

将 MATLAB datastore 转换为 Spark RDD

textFile

从文本文件创建 RDD

一旦使用 SparkContext 类中的方法创建了 RDD,您就可以使用 RDD 类中的任何方法来操作您的 RDD。

属性

此类的属性是隐藏的。

方法

变换

aggregateByKey使用给定的组合函数和中性的“零值”聚合每个键的值
cartesian创建是两个 RDD 的笛卡尔积的 RDD
coalesce减少 RDD 中的分区数
cogroup将共享相同密钥的 RDD 中的数据分组
combineByKey使用一组自定义的聚合函数组合每个键的元素
distinct返回一个包含现有 RDD 的不同元素的新 RDD
filter返回仅包含满足谓词函数的元素的新 RDD
flatMap首先将函数应用于现有 RDD 的所有元素,然后展平结果,从而返回新的 RDD
flatMapValues通过 flatMap 方法传递键-值对组 RDD 中的每个值,而不改变键
foldByKey使用关联函数和中性的“零值”合并每个键的值
fullOuterJoin在两个键-值对组 RDD 之间执行完全外联接
glom合并 RDD 每个分区内的所有元素
groupBy返回分组项目的 RDD
groupByKey将 RDD 中每个键的值分组为单个序列
intersection返回一个 RDD 与另一个 RDD 的集合交集
join返回包含所有具有匹配键的元素对的 RDD
keyBy通过应用函数创建 RDD 中元素的元组
keys返回包含每个元组的键的 RDD
leftOuterJoin执行左外联
map通过对输入 RDD 的每个元素应用一个函数来返回新的 RDD
mapValues将键-值对组 RDD 中的每个值通过 map 函数传递,而不修改键
reduceByKey使用关联减少函数合并每个键的值
repartition返回一个具有恰好 numPartitions 个分区的新 RDD
rightOuterJoin执行 right outer join
sortBy根据给定函数对 RDD 进行排序
sortByKey按键对由键-值对组成的 RDD 进行排序
subtract返回两个 RDD 之间的差集的结果值
subtractByKey返回两个 RDD 之间的键差集所产生的键-值对组
union返回一个 RDD 与另一个 RDD 的并集
values返回包含每个元组值的 RDD
zip将一个 RDD 与另一个 RDD 压缩在一起
zipWithIndex使用元素索引压缩 RDD
zipWithUniqueId使用生成的唯一 Long ID 压缩 RDD

操作

aggregate对每个分区的元素进行聚合,然后将所有分区的结果聚合为单个值
collect返回包含 RDD 中的所有元素的 MATLAB 元胞数组
collectAsMap将 RDD 中的键-值对组作为 MATLAB containers.Map 对象返回
count对 RDD 中的元素进行计数
fold聚合每个分区的元素以及所有分区的后续结果
reduce使用指定的满足交换律和结合律的函数减少 RDD 的元素
reduceByKeyLocally使用关联的 Reduce 函数合并每个键的值,但立即将结果返回给驱动
saveAsKeyValueDatastore将键值 RDD 保存为二进制文件,可以使用 datastore 函数读取
saveAsTallDatastore将 RDD 作为 MATLAB tall 数组保存到二进制文件中,该文件可使用 datastore 函数读回
saveAsTextFile将 RDD 保存为文本文件

操作

cache将 RDD 存储在内存中
checkpoint标记 RDD 以设置检查点
getCheckpointFile获取 RDD 检查点文件的名称
getDefaultReducePartitions获取 RDD 中默认的 Reduce 分区数量
getNumPartitions返回 RDD 中的分区数
isEmpty确定 RDD 是否包含任何元素
keyLimit返回在溢出到磁盘之前可以存储的唯一键的阈值
persist设置 RDD 存储级别的值,以便在计算后跨操作持久保存
toDebugString获取 RDD 及其递归依赖项的描述,以便进行调试
unpersist将 RDD 标记为非持久性,从内存和磁盘中删除它的所有模块

详细信息

全部展开

参考资料

有关更多信息,请参阅最新的 Spark 文档。

版本历史记录

在 R2016b 中推出