matlab.compiler.mlspark.RDD 类
命名空间: matlab.compiler.mlspark
超类:
表示 Spark 弹性分布式数据集 (RDD) 的接口类
描述
构造
只能使用 RDD 类的方法创建 SparkContext 对象。为方便起见,下面列出了用于创建 RDD 的 SparkContext 方法集合。有关更多信息,请参阅 SparkContext 类的文档。
| SparkContext 方法名称 | 目的 |
|---|---|
parallelize | 根据局部 MATLAB® 值创建 RDD |
datastoreToRDD | 将 MATLAB |
textFile | 从文本文件创建 RDD |
一旦使用 SparkContext 类中的方法创建了 RDD,您就可以使用 RDD 类中的任何方法来操作您的 RDD。
属性
此类的属性是隐藏的。
方法
变换
| aggregateByKey | 使用给定的组合函数和中性“零值”聚合每个键的值 |
| cartesian | 创建是两个 RDD 的笛卡尔积的 RDD |
| coalesce | 减少 RDD 中的分区数 |
| cogroup | 对两个 RDD 中具有相同键的数据进行分组 |
| combineByKey | 使用一组自定义的聚合函数组合每个键的元素 |
| distinct | 返回一个包含现有 RDD 中的不同元素的新 RDD |
| filter | 返回一个仅包含满足谓词函数条件的元素的新 RDD |
| flatMap | 通过首先对现有 RDD 的所有元素应用一个函数,然后将结果扁平化,返回一个新的 RDD |
| flatMapValues | 将键-值对组 RDD 中的每个值传递给 flatMap 方法,但不更改键 |
| foldByKey | 使用满足结合律的函数和中性“零值”合并每个键的值 |
| fullOuterJoin | 在两个键-值对组 RDD 之间执行完全外联 |
| glom | 合并 RDD 的每个分区内的所有元素 |
| groupBy | 返回分组项目的 RDD |
| groupByKey | 将 RDD 中每个键对应的值分组到单个序列中 |
| intersection | 返回一个 RDD 与另一个 RDD 的集合交集 |
| join | 返回一个包含具有匹配键的所有元素对组的 RDD |
| keyBy | 通过应用函数创建 RDD 中元素的元组 |
| keys | 返回包含每个元组的键的 RDD |
| leftOuterJoin | 执行左外联 |
| map | 通过对输入 RDD 的每个元素应用一个函数来返回新的 RDD |
| mapValues | 将键-值对组 RDD 中的每个值传递给映射函数,但不修改键 |
| reduceByKey | 使用满足结合律的 reduce 函数合并每个键的值 |
| repartition | 返回恰好具有 numPartitions 个分区的新 RDD |
| rightOuterJoin | 执行右外联 |
| sortBy | 根据给定函数对 RDD 进行排序 |
| sortByKey | 按键对由键-值对组组成的 RDD 进行排序 |
| subtract | 返回两个 RDD 之间的差集的结果值 |
| subtractByKey | 返回两个 RDD 之间的键差集对应的键-值对组 |
| union | 返回一个 RDD 与另一个 RDD 的并集 |
| values | 返回包含每个元组的值的 RDD |
| zip | 将一个 RDD 与另一个 RDD 配对 |
| zipWithIndex | 使用元素索引压缩 RDD |
| zipWithUniqueId | 使用生成的唯一 Long ID 压缩 RDD |
操作
| aggregate | 对每个分区的元素进行聚合,然后将所有分区的结果聚合为单个值 |
| collect | 返回包含 RDD 中的所有元素的 MATLAB 元胞数组 |
| collectAsMap | 将 RDD 中的键-值对组作为 MATLAB containers.Map 对象返回 |
| count | 对 RDD 中的元素进行计数 |
| fold | 对每个分区的元素以及随后所有分区的结果进行聚合 |
| reduce | 使用指定的满足交换律和结合律的函数减少 RDD 的元素 |
| reduceByKeyLocally | 使用满足结合律的 reduce 函数合并每个键的值,但立即将结果返回给驱动程序 |
| saveAsKeyValueDatastore | 将键-值 RDD 保存为可以使用 datastore 函数读回的二进制文件 |
| saveAsTallDatastore | 将 RDD 作为 MATLAB tall 数组保存到二进制文件,该二进制文件可以使用 datastore 函数读回 |
| saveAsTextFile | 将 RDD 保存为文本文件 |
操作
| cache | 将 RDD 存储在内存中 |
| checkpoint | 标记 RDD 以设置检查点 |
| getCheckpointFile | 获取对 RDD 执行检查点操作时用来保存输出的文件的名称 |
| getDefaultReducePartitions | 获取 RDD 中默认 reduce 分区的数量 |
| getNumPartitions | 返回 RDD 中的分区数 |
| isEmpty | 确定 RDD 是否包含任何元素 |
| keyLimit | 返回在溢写到磁盘之前可以存储的唯一键的阈值 |
| persist | 设置 RDD 存储级别的值,以便在计算后跨操作持久保存 |
| toDebugString | 获取 RDD 及其递归依赖关系的描述以用于调试 |
| unpersist | 将 RDD 标记为非持久性的,并从内存和磁盘中删除它的所有数据块 |
详细信息
参考资料
有关更多信息,请参阅最新的 Spark 文档。
版本历史记录
在 R2016b 中推出