Main Content

parquetinfo

获取有关 Parquet 文件的信息

说明

ParquetInfo 对象包含关于 Parquet 文件的信息,例如:文件大小、变量名称和类型、编码和压缩方案。要获取有关 Parquet 文件的信息,请使用 parquetinfo 函数创建 ParquetInfo 对象。

创建对象

描述

示例

info = parquetinfo(filename)filename 指定的 Parquet 文件返回 info 对象。

输入参量

全部展开

Parquet 文件的名称,指定为字符向量或字符串标量。ParquetInfo 兼容 Parquet 1.0 或 Parquet 2.0 文件。

根据文件的位置,filename 可以采用下列形式之一。

位置

形式

当前文件夹或 MATLAB® 路径上的文件夹

指定 filename 中文件的名称。

示例:'data.parquet'

文件夹中的文件

如果该文件不在当前文件夹或 MATLAB 路径下的文件夹中,则指定完整或相对路径名。

示例:'C:\myFolder\data.parquet'

示例:'myDir\myFile.ext'

Internet URL

如果文件指定为 Internet 统一资源定位器 (URL),则 filename 必须包含协议类型 'http://''https://',并以 '?raw=true' 结尾。

示例:'http://hostname/path_to_file/my_data.parquet?raw=true'

远程位置

如果文件存储在远程位置,则 filename 必须包含用以下格式指定的文件的完整路径:

scheme_name://path_to_file/my_file.ext

根据远程位置,scheme_name 可以是下表中的值之一。

远程位置scheme_name
Amazon S3™s3
Windows Azure® Blob 存储wasb, wasbs
HDFS™hdfs

有关详细信息,请参阅处理远程数据

示例:'s3://bucketname/path_to_file/data.parquet'

数据类型: char | string

属性

全部展开

此 属性 为只读。

Parquet 文件的绝对路径,指定为字符串标量。

数据类型: string

此 属性 为只读。

文件大小(以字节为单位),指定为 double

数据类型: double

此 属性 为只读。

行组的数量,指定为 double

数据类型: double

此 属性 为只读。

每个行组中的行数,指定为 double

数据类型: double

此 属性 为只读。

变量名称,指定为字符串数组。如果 Parquet 文件包含 N 个变量,则 VariableNames 是包含变量名称的大小为 1×N 的数组。

数据类型: string

此 属性 为只读。

变量数据类型,指定为字符串数组。如果 Parquet 文件包含 N 个变量,则 VariableTypes 是大小为 1×N 的数组,其中包含每个变量的数据类型名称。数组中的每个元素是 Parquet 文件中每个变量对应的 MATLAB 数据类型名称。

数据类型: string

此 属性 为只读。

变量压缩算法,指定为字符串数组。如果 Parquet 文件包含 N 个变量,则 VariableCompression 是包含压缩算法名称的大小为 1×N 的数组。数组中的每个元素对应于 Parquet 文件中每个变量所用的压缩算法。请参阅 parquetwrite 了解支持的压缩算法列表。

数据类型: string

此 属性 为只读。

变量编码,指定为字符串数组。如果 Parquet 文件包含 N 个变量,则 VariableEncoding 是包含编码方案名称的大小为 1×N 的数组。数组中的每个元素对应于 Parquet 文件中对该变量进行编码所用的编码方案。请参阅 parquetwrite 了解支持的编码列表。

数据类型: string

此 属性 为只读。

Parquet 版本,指定为 "1.0""2.0"

数据类型: string

示例

全部折叠

使用 parquetinfo 函数创建包含文件有关信息的 ParquetInfo 对象。

info = parquetinfo('outages.parquet')
info = 
  ParquetInfo with properties:

               Filename: "/mathworks/devel/bat/filer/batfs1904-0/Bdoc24a.2528353/build/matlab/toolbox/matlab/demos/outages.parquet"
               FileSize: 44202
           NumRowGroups: 1
        RowGroupHeights: 1468
          VariableNames: ["Region"    "OutageTime"    "Loss"    "Customers"    "RestorationTime"    "Cause"]
          VariableTypes: ["string"    "datetime"    "double"    "double"    "datetime"    "string"]
    VariableCompression: ["snappy"    "snappy"    "snappy"    "snappy"    "snappy"    "snappy"]
       VariableEncoding: ["plain"    "plain"    "plain"    "plain"    "plain"    "plain"]
                Version: "2.0"

显示文件中第三个变量的名称、类型和压缩方案。

disp([info.VariableNames(3)  info.VariableTypes(3) info.VariableCompression(3)]) 
    "Loss"    "double"    "snappy"

扩展功能

版本历史记录

在 R2019a 中推出

全部展开