Main Content

本页的翻译已过时。点击此处可查看最新英文版本。

使用分类数组访问数据

按类别选择数据

基于值选择数据通常很有用。此类数据选择涉及基于一个变量中的值创建一个逻辑向量,然后使用该逻辑向量选择另一个变量中的值的子集。您可以创建一个逻辑向量,以便通过查找位于特定范围中的数值数组中的值来选择数据。此外,您可以通过创建特定的离散值来创建逻辑向量。使用分类数组时,您可以轻松地:

  • 选择特定类别的元素。对于分类数组,使用逻辑 ==~= 选择属于或不属于特定类别的数据。要选择一组特定类别的数据,请使用 ismember 函数。

    对于有序分类数组,可以使用不等运算符 >>=<<= 计算特定类别之上或之下的类别中的数据。

  • 删除特定类别的数据。使用逻辑运算符包括或排除特定类别的数据。

  • 查找不属于所定义类别的元素。分类数组指示哪些元素不属于 <undefined> 定义的类别。使用 isundefined 函数查找被测元素中的未定义值。

使用分类数组访问数据的常见方法

此示例演示了如何使用分类数组建立索引和进行搜索。您可以按相似方式使用表中存储的分类数组来访问数据。

加载样本数据

加载从 100 位患者收集的样本数据。

load patients
whos
  Name                            Size            Bytes  Class      Attributes

  Age                           100x1               800  double               
  Diastolic                     100x1               800  double               
  Gender                        100x1             11412  cell                 
  Height                        100x1               800  double               
  LastName                      100x1             11616  cell                 
  Location                      100x1             14208  cell                 
  SelfAssessedHealthStatus      100x1             11540  cell                 
  Smoker                        100x1               100  logical              
  Systolic                      100x1               800  double               
  Weight                        100x1               800  double               

基于字符向量元胞数组创建分类数组

GenderLocation 包含各类别中的数据。每个元胞数组都包含从一小组唯一值中获取的字符向量(分别表示两个性别和三个位置)。将 GenderLocation 转换为分类数组。

Gender = categorical(Gender);
Location = categorical(Location);

搜索单个类别的成员

对于分类数组,可以使用逻辑运算符 ==~= 来查找属于或不属于特定类别的数据。

确定是否存在到 'Rampart General Hospital' 位置就医的任何患者。

any(Location=='Rampart General Hospital')
ans = logical
   0

不存在到 Rampart General Hospital 就医的患者。

搜索一组类别的成员

您可以使用 ismember 查找一组特定类别中的数据。为到 County General HospitalVA Hospital 就医的患者创建一个逻辑向量。

VA_CountyGenIndex = ...
    ismember(Location,{'County General Hospital','VA Hospital'});

VA_CountyGenIndex 是一个 100x1 的逻辑数组,对于分类数组 Location 中属于 County General HospitalVA Hospital 类别的成员的每个元素,该数组都会在其对应位置包含逻辑值 true (1)。输出 VA_CountyGenIndex 包含 76 个非零元素。

使用逻辑向量 VA_CountyGenIndex 选择在 County General HospitalVA Hospital 就医的患者的 LastName

VA_CountyGenPatients = LastName(VA_CountyGenIndex);

VA_CountyGenPatients 是一个 76×1 的字符向量元胞数组。

选择特定类别中的元素以绘图

使用 summary 函数可输出一份包含每一类别的类别名称及元素数的摘要。

summary(Location)
     County General Hospital        39 
     St. Mary's Medical Center      24 
     VA Hospital                    37 

Location 是一个包含三个类别的 100×1 分类数组。County General Hospital 出现在 39 个元素中,St. Mary s Medical Center 出现在 24 个元素中,VA Hospital 出现在 37 个元素中。

使用 summary 函数输出 Gender 的摘要。

summary(Gender)
     Female      53 
     Male        47 

Gender 是一个包含两个类别的 100×1 分类数组。Female 出现在 53 个元素中,Male 出现在 47 个元素中。

使用逻辑运算符 == 仅访问女性患者的年龄。然后利用这些数据绘制一个直方图。

figure()
histogram(Age(Gender=='Female'))
title('Age of Female Patients')

Figure contains an axes. The axes with title Age of Female Patients contains an object of type histogram.

histogram(Age(Gender=='Female')) 对 53 个女性患者的年龄数据绘图。

删除特定类别中的数据

您可以使用逻辑运算符包括或排除特定类别中的数据。删除工作区变量 AgeLocation 中到 VA Hospital 就医的所有患者。

Age = Age(Location~='VA Hospital');
Location = Location(Location~='VA Hospital');

现在,Age 是一个 63×1 的数值数组,Location 是一个 63×1 的分类数组。

列出 Location 的类别以及每个类别中的元素数。

summary(Location)
     County General Hospital        39 
     St. Mary's Medical Center      24 
     VA Hospital                     0 

VA Hospital 就医的患者已从 Location 中删除,但 VA Hospital 仍是一个类别。

使用 removecats 函数从 Location 的类别中删除 VA Hospital

Location = removecats(Location,'VA Hospital');

验证 VA Hospital 类别是否已删除。

categories(Location)
ans = 2x1 cell
    {'County General Hospital'  }
    {'St. Mary's Medical Center'}

Location 是一个包含两个类别的 63×1 分类数组。

删除元素

您可以按索引删除元素。例如,您可以通过使用 Location(2:end) 选择其余元素来删除 Location 的第一个元素。不过,更简单的元素删除方式是使用 []

Location(1) = [];
summary(Location)
     County General Hospital        38 
     St. Mary's Medical Center      24 

Location 是一个包含两个类别的 62×1 分类数组。删除第一个元素对同一类别中的其他元素没有任何影响,并且不会删除该类别本身。

检查未定义的数据

Location 中删除类别 County General Hospital

Location = removecats(Location,'County General Hospital');

显示分类数组 Location 的前八个元素。

Location(1:8)
ans = 8x1 categorical
     St. Mary's Medical Center 
     <undefined> 
     St. Mary's Medical Center 
     St. Mary's Medical Center 
     <undefined> 
     <undefined> 
     St. Mary's Medical Center 
     St. Mary's Medical Center 

删除 County General Hospital 类别后,先前属于该类别的元素不再属于为 Location 定义的任何类别。分类数组将这些元素表示为 undefined

使用 isundefined 函数可查找被测数据中不属于任何类别的值。

undefinedIndex = isundefined(Location);

undefinedIndex 是一个 62×1 的分类数组,其中与 Location 中所有未定义元素相对应的位置均包含逻辑值 true (1)。

设置未定义的元素

使用 summary 函数输出 Location 中未定义的元素数量。

summary(Location)
     St. Mary's Medical Center      24 
     <undefined>                    38 

Location 的第一个元素属于 St. Mary's Medical Center 类别。将第一个元素设置为 undefined,使其不再属于任何类别。

Location(1) = '<undefined>';
summary(Location)
     St. Mary's Medical Center      23 
     <undefined>                    39 

您可以将选定元素设置为 undefined 而不删除类别或更改其他元素的类别。将元素设置为 undefined 以指示包含未知值的元素。

预分配包含未定义元素的分类数组

您可以使用未定义的元素预分配分类数组的大小,以提高性能。创建一个分类数组,其中包含仅具有已知位置的元素。

definedIndex = ~isundefined(Location);
newLocation = Location(definedIndex);
summary(newLocation)
     St. Mary's Medical Center      23 

扩展 newLocation 的大小,使其成为一个 200×1 的分类数组。将上一新元素设置为 undefined。所有其他新元素也会设置为 undefined。23 个原始元素将保留它们已有的值。

newLocation(200) = '<undefined>';
summary(newLocation)
     St. Mary's Medical Center       23 
     <undefined>                    177 

newLocation 可为您计划以后存储到数组中的值留出空间。

另请参阅

| | | | | |

相关示例

详细信息