主要内容

本页采用了机器翻译。点击此处可查看最新英文版本。

persist

类: matlab.compiler.mlspark.RDD
命名空间: matlab.compiler.mlspark

设置 RDD 存储级别的值,以便在计算后跨操作持久保存

语法

persist(obj,storageLevel)

说明

persist(obj,storageLevel) 在 RDD 对象 storageLevel 中设置由 obj 指定的持久存储级别。默认存储级别是 MEMORY_ONLY。如果 obj 没有设置存储级别,则使用 persist 方法分配新的存储级别。您还可以使用它来设置跨操作的内存中的持久存储级别。

输入参数

全部展开

输入 RDD,指定为 RDD 对象。

要分配的新存储级别,指定为用 '' 括起来的字符向量。如果 RDD 没有设置存储级别,请使用 storageLevel 分配新的存储级别。默认存储级别是 MEMORY_ONLY

存储级别描述
MEMORY_ONLY

将 RDD 存储在内存中。如果 RDD 无法装入内存,则某些分区不会被缓存,并且在每次需要时重新计算。

DISK_ONLY

将 RDD 分区存储在磁盘上。

MEMORY_AND_DISK

将 RDD 存储在内存中。如果内存放不下,则溢出到磁盘。

MEMORY_ONLY_2

将 RDD 存储在内存中,但在两个集群节点上复制每个分区。

DISK_ONLY_2

将 RDD 分区存储在磁盘上,但在两个集群节点上复制每个分区。

MEMORY_AND_DISK_2

将 RDD 存储在内存中。如果内存放不下,则溢出到磁盘。在两个集群节点上复制每个分区。

OFF_HEAP以序列化格式存储 RDD。有关详细信息,请参阅编程指南https://spark.apache.org/

数据类型: char

示例

全部展开

使用不带任何参数的 persist 方法将 RDD 存储在跨集群的执行器的内存中。

%% Connect to Spark
sparkProp = containers.Map({'spark.executor.cores'}, {'1'});
conf = matlab.compiler.mlspark.SparkConf('AppName','myApp', ...
                        'Master','local[1]','SparkProperties',sparkProp);
sc = matlab.compiler.mlspark.SparkContext(conf);

%% persist
myFile = sc.textFile('airlinesmall.csv');
myFile.persist();
myFile.unpersist();

版本历史记录

在 R2016b 中推出