matlab.compiler.mlspark.RDD 类
命名空间: matlab.compiler.mlspark
超类:
表示 Spark 弹性分布式数据集 (RDD) 的接口类
描述
构造
只能使用 RDD
类的方法创建 SparkContext
对象。为方便起见,下面列出了用于创建 RDD 的 SparkContext
方法集合。有关更多信息,请参阅 SparkContext
类的文档。
SparkContext 方法名称 | 目的 |
---|---|
parallelize | 根据局部 MATLAB® 值创建 RDD |
datastoreToRDD | 将 MATLAB |
textFile | 从文本文件创建 RDD |
一旦使用 SparkContext
类中的方法创建了 RDD,您就可以使用 RDD
类中的任何方法来操作您的 RDD。
属性
此类的属性是隐藏的。
方法
变换
aggregateByKey | 使用给定的组合函数和中性的“零值”聚合每个键的值 |
cartesian | 创建是两个 RDD 的笛卡尔积的 RDD |
coalesce | 减少 RDD 中的分区数 |
cogroup | 将共享相同密钥的 RDD 中的数据分组 |
combineByKey | 使用一组自定义的聚合函数组合每个键的元素 |
distinct | 返回一个包含现有 RDD 的不同元素的新 RDD |
filter | 返回仅包含满足谓词函数的元素的新 RDD |
flatMap | 首先将函数应用于现有 RDD 的所有元素,然后展平结果,从而返回新的 RDD |
flatMapValues | 通过 flatMap 方法传递键-值对组 RDD 中的每个值,而不改变键 |
foldByKey | 使用关联函数和中性的“零值”合并每个键的值 |
fullOuterJoin | 在两个键-值对组 RDD 之间执行完全外联接 |
glom | 合并 RDD 每个分区内的所有元素 |
groupBy | 返回分组项目的 RDD |
groupByKey | 将 RDD 中每个键的值分组为单个序列 |
intersection | 返回一个 RDD 与另一个 RDD 的集合交集 |
join | 返回包含所有具有匹配键的元素对的 RDD |
keyBy | 通过应用函数创建 RDD 中元素的元组 |
keys | 返回包含每个元组的键的 RDD |
leftOuterJoin | 执行左外联 |
map | 通过对输入 RDD 的每个元素应用一个函数来返回新的 RDD |
mapValues | 将键-值对组 RDD 中的每个值通过 map 函数传递,而不修改键 |
reduceByKey | 使用关联减少函数合并每个键的值 |
repartition | 返回一个具有恰好 numPartitions 个分区的新 RDD |
rightOuterJoin | 执行 right outer join |
sortBy | 根据给定函数对 RDD 进行排序 |
sortByKey | 按键对由键-值对组成的 RDD 进行排序 |
subtract | 返回两个 RDD 之间的差集的结果值 |
subtractByKey | 返回两个 RDD 之间的键差集所产生的键-值对组 |
union | 返回一个 RDD 与另一个 RDD 的并集 |
values | 返回包含每个元组值的 RDD |
zip | 将一个 RDD 与另一个 RDD 压缩在一起 |
zipWithIndex | 使用元素索引压缩 RDD |
zipWithUniqueId | 使用生成的唯一 Long ID 压缩 RDD |
操作
aggregate | 对每个分区的元素进行聚合,然后将所有分区的结果聚合为单个值 |
collect | 返回包含 RDD 中的所有元素的 MATLAB 元胞数组 |
collectAsMap | 将 RDD 中的键-值对组作为 MATLAB containers.Map 对象返回 |
count | 对 RDD 中的元素进行计数 |
fold | 聚合每个分区的元素以及所有分区的后续结果 |
reduce | 使用指定的满足交换律和结合律的函数减少 RDD 的元素 |
reduceByKeyLocally | 使用关联的 Reduce 函数合并每个键的值,但立即将结果返回给驱动 |
saveAsKeyValueDatastore | 将键值 RDD 保存为二进制文件,可以使用 datastore 函数读取 |
saveAsTallDatastore | 将 RDD 作为 MATLAB tall 数组保存到二进制文件中,该文件可使用 datastore 函数读回 |
saveAsTextFile | 将 RDD 保存为文本文件 |
操作
cache | 将 RDD 存储在内存中 |
checkpoint | 标记 RDD 以设置检查点 |
getCheckpointFile | 获取 RDD 检查点文件的名称 |
getDefaultReducePartitions | 获取 RDD 中默认的 Reduce 分区数量 |
getNumPartitions | 返回 RDD 中的分区数 |
isEmpty | 确定 RDD 是否包含任何元素 |
keyLimit | 返回在溢出到磁盘之前可以存储的唯一键的阈值 |
persist | 设置 RDD 存储级别的值,以便在计算后跨操作持久保存 |
toDebugString | 获取 RDD 及其递归依赖项的描述,以便进行调试 |
unpersist | 将 RDD 标记为非持久性,从内存和磁盘中删除它的所有模块 |
详细信息
参考资料
有关更多信息,请参阅最新的 Spark 文档。
版本历史记录
在 R2016b 中推出