数据存储
datastore
函数用于创建数据存储。数据存储是一个存储库,用于收集由于体积太大而无法载入内存的数据。利用数据存储,可将在磁盘、远程位置或数据库中存储的多个文件中的数据作为单个实体来读取和处理。如果数据太大而无法载入内存,您可以对数据的增量导入进行管理,创建 tall
数组来处理数据,或者使用数据存储作为 mapreduce
的输入以便进一步处理。有关详细信息,请参阅数据存储快速入门。
函数
类
主题
- 数据存储快速入门
数据存储是一个用于读取单个文件或者文件或数据集合的对象。它相当于一个存储库,用来存储具有相同结构和格式的数据。例如,数据存储中每个文件包含的数据必须具有相同的类型(如数字或文本)、以相同顺序显示并用相同的分隔符分隔。
- Select Datastore for File Format or Application
Choose the right datastore based on the file format of your data or application.
- 读取和分析大型表格文本文件
以下示例说明如何为包含表格数据的大型文本文件创建数据存储,然后采用逐个块或逐个文件的方式读取和处理数据。
- 读取和分析图像文件
此示例说明如何为图像集合创建数据存储,读取图像文件,并找到具有最大平均色调、饱和度和亮度 (HSV) 的图像。有关使用
mapreduce
函数进行图像处理的类似示例,请参阅Compute Maximum Average HSV of Images with MapReduce。 - Read and Analyze MAT-File with Key-Value Data
This example shows how to create a datastore for key-value pair data in a MAT-file that is the output of
mapreduce
. - Read and Analyze Hadoop Sequence File
This example shows how to create a datastore for a Sequence file containing key-value data.
- 处理远程数据
处理 Amazon S3™、Azure® Blob 存储或 HDFS™ 中的远程数据。
- Set Up Datastore for Processing on Different Machines or Clusters
Setup a datastore on your machine that can be loaded and processed on another machine or cluster.
- Develop Custom Datastore
Create a fully customized datastore for your custom or proprietary data.
- Develop Custom Datastore for DICOM Data
This example shows how to develop a custom datastore that supports writing operations.
- Testing Guidelines for Custom Datastores
After implementing your custom datastore, follow this test procedure to qualify your custom datastore.