h5create

创建 HDF5 数据集

全页折叠

语法

h5create(filename,ds,sz)

h5create(filename,ds,sz,Name=Value)

说明

h5create(filename,ds,sz) 创建数据集 ds，其名称包括其在 HDF5 文件 filename 中的完整位置，其大小由 sz 指定。

示例

h5create(filename,ds,sz,Name=Value) 使用一个或多个名称-值参量指定选项。例如，ChunkSize=[5 5] 指定 5×5 数据集块，它们可以单独存储在 HDF5 文件中。

示例

全部折叠

创建固定大小的数据集

打开实时脚本

使用完整路径 /g1/g2/myDataset 创建一个固定大小的 100×200×300 数据集 myDataset。

h5create("myFile.h5","/g1/g2/myDataset",[100 200 300])

将数据写入 myDataset。由于 myDataset 的维度是固定的，因此要写入的数据量必须与数据集的大小匹配。

myData = ones(100,200,300);
h5write("myFile.h5","/g1/g2/myDataset",myData)
h5disp("myFile.h5")

HDF5 myFile.h5 
Group '/' 
    Group '/g1' 
        Group '/g1/g2' 
            Dataset 'myDataset' 
                Size:  100x200x300
                MaxSize:  100x200x300
                Datatype:   H5T_IEEE_F64LE (double)
                ChunkSize:  []
                Filters:  none
                FillValue:  0.000000

创建和比较使用压缩的数据集

打开实时脚本

创建两个 HDF5 文件，每个文件包含一个 1000×2000 数据集。对第一个数据集使用具有最大压缩的 deflate 过滤器，对第二个数据集使用具有熵编码的 SZIP 过滤器。应用压缩过滤器时，必须指定块大小。

h5create("myFileDeflate.h5","/myDatasetDeflate",[1000 2000], ...
         ChunkSize=[50 80],Deflate=9)
h5create("myFileSZIP.h5","/myDatasetSZIP",[1000 2000], ...
         ChunkSize=[50 80],SZIPEncodingMethod="entropy")

显示两个文件的内容，并观察不同过滤器。

h5disp("myFileDeflate.h5")

HDF5 myFileDeflate.h5 
Group '/' 
    Dataset 'myDatasetDeflate' 
        Size:  1000x2000
        MaxSize:  1000x2000
        Datatype:   H5T_IEEE_F64LE (double)
        ChunkSize:  50x80
        Filters:  deflate(9)
        FillValue:  0.000000

h5disp("myFileSZIP.h5")

HDF5 myFileSZIP.h5 
Group '/' 
    Dataset 'myDatasetSZIP' 
        Size:  1000x2000
        MaxSize:  1000x2000
        Datatype:   H5T_IEEE_F64LE (double)
        ChunkSize:  50x80
        Filters:  szip
        FillValue:  0.000000

将随机化的数据写入每个数据集。

myData = rand([1000 2000]);
h5write("myFileDeflate.h5","/myDatasetDeflate",myData)
h5write("myFileSZIP.h5","/myDatasetSZIP",myData)

通过检查生成的文件的大小来比较压缩过滤器。对于这些数据，deflate 过滤器提供更大的压缩。

deflateListing = dir("myFileDeflate.h5");
SZIPListing = dir("myFileSZIP.h5");
deflateFileSize = deflateListing.bytes

deflateFileSize = 
15117631

SZIPFileSize = SZIPListing.bytes

SZIPFileSize = 
16027320

sizeRatio = deflateFileSize/SZIPFileSize

sizeRatio = 
0.9432

创建具有无限维度的数据集

打开实时脚本

创建一个二维数据集 myDataset3，它在第二个维度上是无限的。将数据集的任一维度设置为 Inf 时，必须指定 ChunkSize 名称-值参量。

h5create("myFile.h5","/myDataset3",[200 Inf],ChunkSize=[20 20])

将数据写入 myDataset3。您可以沿第二个维度写入任意大小的数据，因为此维度是无限的。此外，由于数据集的一个维度是无限的，因此在向数据集写入数据时，您必须指定 start 和 count 参量。

myData = rand(200,500);
h5write("myFile.h5","/myDataset3",myData,[1 1],[200 500])

显示 HDF5 文件的全部内容。

h5disp("myFile.h5")

HDF5 myFile.h5 
Group '/' 
    Dataset 'myDataset3' 
        Size:  200x500
        MaxSize:  200xInf
        Datatype:   H5T_IEEE_F64LE (double)
        ChunkSize:  20x20
        Filters:  none
        FillValue:  0.000000

输入参数

全部折叠

`filename` — HDF5 文件的名称
字符串标量 | 字符向量

HDF5 文件的名称，指定为字符串标量或字符向量。如果 filename 尚不存在，则 h5create 函数会创建该文件。

根据您要写入的位置，filename 可以接受以下形式之一。

位置

形式

当前文件夹

要写入当前文件夹，请在 filename 中指定文件名。

示例："myFile.h5"

其他文件夹

要写入不同于当前文件夹的文件夹，请在 filename 中指定完整或相对路径名称。

示例："C:\myFolder\myFile.h5"

示例："/myFolder/myFile.h5"

远程位置

要写入远程位置，请将 filename 指定为以下形式的统一资源定位器 (URL)：

scheme_name://path_to_file/my_file.h5

根据远程位置，scheme_name 可以是下表中的值之一。

远程位置	`scheme_name`
Amazon S3™	`s3`
Windows Azure^® Blob 存储	`wasb`, `wasbs`

有关详细信息，请参阅处理远程数据。

示例："s3://my_bucket/my_path/my_file.h5"

`ds` — 数据集名称
字符串标量 | 字符向量

数据集名称，指定为包含要创建的数据集的完整路径名称的字符串标量或字符向量。如果您指定的数据集当前尚不存在，则 h5create 函数将创建该数据集。此外，如果您指定的中间组当前尚不存在，则 h5create 函数会创建这些组。

示例: "/myDataset"

示例: "/g1/g2/myNestedDataset"

`sz` — 数据集大小
标量 | 行向量

数据集大小，指定为标量或行向量。要指定无限维度，请将 sz 的对应元素指定为 Inf。在这种情况下，您还必须指定 ChunkSize。

示例: 50

示例: [2000 1000]

示例: [100 200 Inf]

数据类型: double

名称-值参数

全部折叠

以 Name1=Value1,...,NameN=ValueN 的形式指定可选参量对组，其中 Name 是参量名称，Value 是对应的值。名称-值参量必须出现在其他参量之后，但参量对组的顺序无关紧要。

示例: h5create("myFile.h5","/dataset1",[1000 2000],ChunkSize=[50 80],CustomFilterID=307,CustomFilterParameters=6) 使用 50×80 个块、注册的 bzip2 滤波器（标识符 307）以及压缩数据块大小 6，在 HDF5 文件 myFile.h5 中创建 1000×2000 数据集 dataset1。

`Datatype` — 数据集的数据类型
`"double"` (默认) | `"single"` | `"uint64"` | `"uint32"` | `"uint16"` | `…`

数据集的数据类型，指定为以下值之一，表示 MATLAB^® 数据类型：

"double"
"single"
"uint64"
"int64"
"uint32"
"int32"
"uint16"
"int16"
"uint8"
"int8"
"string"

数据类型: string | char

`ChunkSize` — 块大小
标量 | 行向量

块大小，指定为包含块维度的标量或行向量。如果 sz 的任一条目是 Inf，则必须指定 ChunkSize。ChunkSize 的长度必须等于 sz 的长度，并且 ChunkSize 的每个条目必须小于或等于 sz 的对应条目。

示例: 10

示例: [20 10 100]

数据类型: double

`Deflate` — Deflate 压缩级别
`0` (默认) | 从 0 到 9 的整数标量值

Deflate 压缩级别，指定为从 0 到 9 的整数标量值。默认值 0 表示没有压缩。值 1 表示最小压缩，值 9 表示最大压缩。如果指定 Deflate，则还必须指定 ChunkSize。

无法在同一函数调用中同时指定 Deflate 和 SZIPEncodingMethod。

数据类型: double

`FillValue` — 缺失数据的填充值
`0` (默认) | 数值

数值数据集中缺失数据的填充值，指定为数值。

`Fletcher32` — 32 位弗莱彻校验和过滤器
`false` 或 `0` (默认) | `true` 或 `1`

32 位弗莱彻校验和过滤器，指定为数值或逻辑值 1 (true) 或 0 (false)。弗莱彻校验和过滤器验证文件中传输的数据是否无误。如果指定 Fletcher32，则还必须指定 ChunkSize。

数据类型: logical | double

`Shuffle` — Shuffle 过滤器
`false` 或 `0` (默认) | `true` 或 `1`

Shuffle 过滤器，指定为数值或逻辑值 1 (true) 或 0 (false)。Shuffle 过滤器通过重新排列存储在内存中的数据的字节顺序来提高压缩比。如果指定 Shuffle，则还必须指定 ChunkSize。

数据类型: logical | double

`TextEncoding` — 文本编码
`"UTF-8"` (默认) | `"system"`

文本编码，指定为以下值之一：

"UTF-8" - 使用 UTF 8 编码表示字符。
"system" - 使用系统编码将字符表示为字节（不推荐）。

数据类型: string | char

`CustomFilterID` — 过滤器标识符
正整数

由 The HDF Group 分配的已注册过滤器插件的过滤器标识符，指定为正整数。有关注册过滤器的列表，请参阅 The HDF Group 网站上的过滤器页。

如果不为 CustomFilterID 指定值，则数据集不会使用动态加载的过滤器进行压缩。

如果指定 CustomFilterID，则还必须指定 ChunkSize。

`CustomFilterParameters` — 过滤器参数
数值标量 | 数值行向量

第三方过滤器的过滤器参数，指定为数值标量或数值行向量。如果指定 CustomFilterID 而没有指定此参量，则 h5create 函数会将空向量传递给 HDF5 库，并且过滤器使用默认参数。

此名称-值参量对应于 HDF5 库中 H5Pset_filter 函数的 cd_values 参量。

如果指定 CustomFilterParameters，则还必须指定 CustomFilterID。

`SZIPEncodingMethod` — SZIP 压缩的编码方法
`"entropy"` | `"nearestneighbor"`

自 R2024b 起

SZIP 压缩的编码方法，指定为 "entropy" 或 "nearestneighbor"。entropy 方法最适合已处理过的数据；nearestneighbor 方法会预处理数据，然后应用 entropy 方法。如果指定 SZIPEncodingMethod，则还必须指定 ChunkSize。

无法在同一函数调用中同时指定 SZIPEncodingMethod 和 Deflate。

数据类型: string | char

`SZIPPixelsPerBlock` — SZIP 压缩的每个块的像素数
`16` (默认) | 从 2 到 32 的偶数

自 R2024b 起

SZIP 压缩的每个块的像素数（HDF5 数据元素），指定为 2 到 32 之间的偶数。如果指定 SZIPPixelsPerBlock，则还必须指定 SZIPEncodingMethod。SZIPPixelsPerBlock 的值必须小于或等于每个数据集块中的元素数。

示例: 32

详细信息

全部折叠

HDF5 中的块存储

块存储指一种通过将数据集分成称为块的较小数据片段来将数据集存储在内存中的方法。对数据集进行分块可以提高对数据集子集进行操作时的性能，因为可以在 HDF5 文件中单独对这些块进行读写。

提示

要对同一数据集同时启用 deflate 和 SZIP 过滤器，请使用低级 H5P.set_deflate 和 H5P.set_szip 函数。

版本历史记录

在 R2011a 中推出

全部展开

R2024b: 创建采用 SZIP 压缩的数据集

通过使用 SZIPEncodingMethod 和 SZIPPixelsPerBlock 名称-值参量，您可以创建使用 SZIP 压缩的数据集。

R2022a: 使用动态加载的过滤器创建数据集

您可以使用 CustomFilterID 和 CustomFilterParameters 名称-值参量来启用使用动态加载的过滤器的压缩。

R2020b: 在远程位置创建 HDF5 文件

您可以在远程位置（例如 Amazon S3、Windows Azure Blob 存储和 HDFS™）创建 HDF5 文件。

R2020b: 使用 Unicode 名称创建 HDF5 文件

您可以创建其名称以 Unicode 字符编码的 HDF5 文件。

另请参阅

h5read | h5write | h5info | h5disp

h5create

语法

说明

示例

创建固定大小的数据集

创建和比较使用压缩的数据集

创建具有无限维度的数据集

输入参数

filename — HDF5 文件的名称 字符串标量 | 字符向量

ds — 数据集名称 字符串标量 | 字符向量

sz — 数据集大小 标量 | 行向量

名称-值参数

Datatype — 数据集的数据类型 "double" (默认) | "single" | "uint64" | "uint32" | "uint16" | …

ChunkSize — 块大小 标量 | 行向量

Deflate — Deflate 压缩级别 0 (默认) | 从 0 到 9 的整数标量值

FillValue — 缺失数据的填充值 0 (默认) | 数值

Fletcher32 — 32 位弗莱彻校验和过滤器 false 或 0 (默认) | true 或 1

Shuffle — Shuffle 过滤器 false 或 0 (默认) | true 或 1

TextEncoding — 文本编码 "UTF-8" (默认) | "system"

CustomFilterID — 过滤器标识符 正整数

CustomFilterParameters — 过滤器参数 数值标量 | 数值行向量

SZIPEncodingMethod — SZIP 压缩的编码方法 "entropy" | "nearestneighbor"

SZIPPixelsPerBlock — SZIP 压缩的每个块的像素数 16 (默认) | 从 2 到 32 的偶数

详细信息

HDF5 中的块存储

提示

版本历史记录

R2024b: 创建采用 SZIP 压缩的数据集

R2022a: 使用动态加载的过滤器创建数据集

R2020b: 在远程位置创建 HDF5 文件

R2020b: 使用 Unicode 名称创建 HDF5 文件

另请参阅

主题

`filename` — HDF5 文件的名称
字符串标量 | 字符向量

`ds` — 数据集名称
字符串标量 | 字符向量

`sz` — 数据集大小
标量 | 行向量

`Datatype` — 数据集的数据类型
`"double"` (默认) | `"single"` | `"uint64"` | `"uint32"` | `"uint16"` | `…`

`ChunkSize` — 块大小
标量 | 行向量

`Deflate` — Deflate 压缩级别
`0` (默认) | 从 0 到 9 的整数标量值

`FillValue` — 缺失数据的填充值
`0` (默认) | 数值

`Fletcher32` — 32 位弗莱彻校验和过滤器
`false` 或 `0` (默认) | `true` 或 `1`

`Shuffle` — Shuffle 过滤器
`false` 或 `0` (默认) | `true` 或 `1`

`TextEncoding` — 文本编码
`"UTF-8"` (默认) | `"system"`

`CustomFilterID` — 过滤器标识符
正整数

`CustomFilterParameters` — 过滤器参数
数值标量 | 数值行向量

`SZIPEncodingMethod` — SZIP 压缩的编码方法
`"entropy"` | `"nearestneighbor"`

`SZIPPixelsPerBlock` — SZIP 压缩的每个块的像素数
`16` (默认) | 从 2 到 32 的偶数