rmoutliers

检测并删除数据中的离群值

全页折叠

语法

B = rmoutliers(A)

B = rmoutliers(A,method)

B = rmoutliers(A,"percentiles",threshold)

B = rmoutliers(A,movmethod,window)

B = rmoutliers(___,dim)

B = rmoutliers(___,Name=Value)

[B,TFrm] = rmoutliers(___)

[B,TFrm,TFoutlier,L,U,C] = rmoutliers(___)

说明

B = rmoutliers(A) 在 A 的数据中检测并删除离群值。

如果 A 是矩阵，则 rmoutliers 会分别检测 A 的每列中的离群值，并删除整行。
如果 A 是表或时间表，则 rmoutliers 会分别检测 A 的每个变量中的离群值并删除整行。

默认情况下，离群值是指与中位数相差超过三倍经过换算的中位数绝对偏差 (MAD) 的值。

您可以通过将清洗离群数据任务添加到实时脚本中，以交互方式使用 rmoutliers 功能。

示例

B = rmoutliers(A,method) 指定检测离群值的方法。例如，rmoutliers(A,"mean") 将 A 中与均值相差超过三个标准差的元素定义为离群值。

示例

B = rmoutliers(A,"percentiles",threshold) 将离群值定义为 threshold 所指定的百分位数以外的点。threshold 参量是包含上下百分位数阈值的二元素行向量，例如 [10 90]。

B = rmoutliers(A,movmethod,window) 使用窗长度为 window 的移动窗均值或中位数来检测局部离群值。例如，rmoutliers(A,"movmean",5) 将一个包含五个元素的窗口中与局部均值相差超过三倍局部标准差的元素定义为离群值。

示例

B = rmoutliers(___,dim) 指定 A 中要删除离群值的维度，当使用任何上述语法检测到离群值时，将删除该维度上的条目。例如，rmoutliers(A,2) 检测矩阵 A 的每列中的离群值，并删除包含一个检测到的离群值的列。

示例

B = rmoutliers(___,Name=Value) 使用一个或多个名称-值参量指定用来检测和删除离群值的其他参数。例如，rmoutliers(A,SamplePoints=t) 相对于时间向量 A 中的对应元素检测 t 中的离群值。

示例

[B,TFrm] = rmoutliers(___) 还返回逻辑向量 TFrm 和逻辑数组 TFoutlier，前者指示从 A 中删除的行或列，后者指示从 A 中删除的离群值的位置。

示例

[B,TFrm,TFoutlier,L,U,C] = rmoutliers(___) 还返回离群值检测方法使用的下阈值 L、上阈值 U 和中心值 C。

示例

全部折叠

向量中的离群值

打开实时脚本

创建一个包含两个离群值的向量，然后删除这些离群值。

A = [57 59 60 100 59 58 57 58 300 61 62 60 62 58 57];
B = rmoutliers(A)

B = 1×13

    57    59    60    59    58    57    58    61    62    60    62    58    57

使用均值检测方法

打开实时脚本

使用均值检测方法识别数据时间表中的潜在离群值，删除任何离群值，并可视化清洗后的数据。

创建一个数据时间表，并可视化数据以检测潜在的离群值。

T = hours(1:15);
V = [57 59 60 100 59 58 57 58 300 61 62 60 62 58 57];
A = timetable(T',V');
plot(A.Time,A.Var1)

Figure contains an axes object. The axes object contains an object of type line.

删除数据中的离群值，其中离群值定义为偏离均值超过三个标准差的值。

B = rmoutliers(A,"mean")

B=14×1 timetable
    Time     Var1
    _____    ____

    1 hr      57 
    2 hr      59 
    3 hr      60 
    4 hr     100 
    5 hr      59 
    6 hr      58 
    7 hr      57 
    8 hr      58 
    10 hr     61 
    11 hr     62 
    12 hr     60 
    13 hr     62 
    14 hr     58 
    15 hr     57

在同一个图中，绘制原始数据和删除了离群值的数据。

hold on
plot(B.Time,B.Var1,"o-")
legend("Original Data","Cleaned Data")

Figure contains an axes object. The axes object contains 2 objects of type line. These objects represent Original Data, Cleaned Data.

使用移窗检测法

打开实时脚本

使用移动中位数在对应于某时间向量的正弦波中检测并删除局部离群值。

创建包含一个局部离群值的数据向量。

x = -2*pi:0.1:2*pi;
A = sin(x);
A(47) = 0;

创建与 A 中的数据对应的时间向量。

t = datetime(2017,1,1,0,0,0) + hours(0:length(x)-1);

将离群值定义为滑动窗内与局部中位数相差超过三倍局部换算 MAD 的点。查找离群值在 A 中的位置（相对于 t 中的点，窗口大小为 5 个小时），并删除这些离群值。

[B,TFrm] = rmoutliers(A,"movmedian",hours(5),SamplePoints=t);

绘制原始数据和删除离群值后的数据。

plot(t,A)
hold on
plot(t(~TFrm),B,"o-")
legend("Original Data","Cleaned Data")

Figure contains an axes object. The axes object contains 2 objects of type line. These objects represent Original Data, Cleaned Data.

查找已删除离群值的值

打开实时脚本

创建一个包含两个离群值的矩阵并删除离群值。返回逻辑输出向量 TFrm 以标识 A 中的哪些行被删除，并返回逻辑输出数组 TFoutlier 以标识 A 中离群值的位置。

A = [2 290 1 2; 1 0 323 1; 0 2 3 2; 1 1 2 3]

A = 4×4

     2   290     1     2
     1     0   323     1
     0     2     3     2
     1     1     2     3

[B,TFrm,TFoutlier] = rmoutliers(A)

B = 2×4

     0     2     3     2
     1     1     2     3

TFrm = 4×1 logical array

   1
   1
   0
   0

TFoutlier = 4×4 logical array

   0   1   0   0
   0   0   1   0
   0   0   0   0
   0   0   0   0

在 A 的已删除行中查找值。

rmCol = A(TFrm,:)

rmCol = 2×4

     2   290     1     2
     1     0   323     1

查找 A 中被视为离群值的值。

rmVal = A(TFoutlier)

rmVal = 2×1

   290
   323

删除包含离群值的列

打开实时脚本

从数据矩阵中删除离群值，并检查删除的列和离群值。

创建一个包含两个离群值的矩阵。

A = [1 1 1; 1 100 1; 1 100 1; 1 1 100; 1 1 1]

A = 5×3

     1     1     1
     1   100     1
     1   100     1
     1     1   100
     1     1     1

使用 rmoutliers 沿 A 中的每列检测离群值，并删除任何包含至少一个离群值的行。

B = rmoutliers(A)

B = 2×3

     1     1     1
     1     1     1

使用 rmoutliers 沿 A 中的每列检测离群值，并删除任何包含至少一个离群值的列。将 dim 指定为 2 会减小第二个维度中数据的大小。

B = rmoutliers(A,2)

指定离群值位置

打开实时脚本

创建一个包含两个离群值的向量，并检测这些离群值的位置。

A = [57 59 60 100 59 58 57 58 300 61 62 60 62 58 57];
detect = isoutlier(A)

detect = 1×15 logical array

   0   0   0   1   0   0   0   0   1   0   0   0   0   0   0

移除离群值。不使用检测方法，而是提供由 isoutlier 检测到的离群值位置。

B = rmoutliers(A,OutlierLocations=detect)

B = 1×13

    57    59    60    59    58    57    58    61    62    60    62    58    57

可视化离群值阈值

打开实时脚本

从数据向量中删除离群值，并可视化清洗后的数据。

创建一个包含离群值的数据向量。

A = [60 59 49 49 58 100 61 57 48 58];

使用默认检测方法 "median" 删除离群值。

[B,TFrm,TFoutlier,L,U,C] = rmoutliers(A);

绘制原始数据、删除了离群值的数据以及由检测方法确定的阈值和中心值。中心值是数据的中位数，上阈值和下阈值分别高于和低于中位数三倍换算 MAD。

plot(A)
hold on
plot(find(~TFrm),B,"o-")
yline([L U C],":",["Lower Threshold","Upper Threshold","Center Value"])
legend("Original Data","Cleaned Data")

Figure contains an axes object. The axes object contains 5 objects of type line, constantline. These objects represent Original Data, Cleaned Data.

删除表中高于标量阈值的值

打开实时脚本

自 R2024b 开始提供

创建一个表并删除离群值，离群值定义为大于 10 的值。创建一个逻辑变量表 loc，该表指示要删除的离群值的位置。然后，使用 OutlierLocations 名称-值参量指定 rmoutliers 的已知离群值位置。

A = [1; 4; 9; 12; 3];
B = [9; 0; 6; 2; 1];
C = [14; 4; 2; 3; 8];
T = table(A,B,C)

T=5×3 table
    A     B    C 
    __    _    __

     1    9    14
     4    0     4
     9    6     2
    12    2     3
     3    1     8

loc = T>10

loc=5×3 table
      A        B        C  
    _____    _____    _____

    false    false    true 
    false    false    false
    false    false    false
    true     false    false
    false    false    false

T = rmoutliers(T,OutlierLocations=loc)

T=3×3 table
    A    B    C
    _    _    _

    4    0    4
    9    6    2
    3    1    8

输入参数

全部折叠

`A` — 输入数据
向量 | 矩阵 | 表 | 时间表

输入数据，指定为向量、矩阵或具有数值变量的表或时间表。

如果 A 是一个表，则其变量的类型必须为 double 或 single，您也可以使用 DataVariables 参量显式列出 double 或 single 变量。当您使用的表中包含 double 和 single 数据类型之外的变量时，指定变量很有用。
如果 A 是一个时间表，则 rmoutliers 仅对表元素进行运算。如果行时间用作采样点，则它们必须唯一，并按升序排列。

数据类型: double | single | table | timetable

`method` — 检测离群值的方法
`"median"` (默认) | `"mean"` | `"quartiles"` | `"grubbs"` | `"gesd"`

检测离群值的方法，指定为以下值之一。

方法	描述
`"median"`	离群值定义为与中位数相差超过三倍换算 MAD 的元素。换算 MAD 定义为 `cmedian(abs(A-median(A)))`，其中 `c=-1/(sqrt(2)erfcinv(3/2))`。
`"mean"`	离群值定义为与均值相差超过三个标准差的元素。此方法比 `"median"` 快，但没有它可靠。
`"quartiles"`	离群值定义为比上四分位数 (75%) 大 1.5 个四分位差以上或比下四分位数 (25%) 小 1.5 个四分位差以上的元素。当 `A` 中的数据不是正态分布时，此方法很有用。
`"grubbs"`	使用针对离群值的格拉布斯检验检测离群值，即基于假设检验每次迭代删除一个离群值。此方法假设 `A` 中的数据呈正态分布。
`"gesd"`	使用广义极端 Student 化偏差检验检测离群值。此迭代方法与 `"grubbs"` 类似，但当有多个离群值互相遮盖时，此方法的执行效果更好。`MaxNumOutliers` 指定的最大离群值计数取决于 `A` 中的元素数量。

`threshold` — 百分位数阈值
包含 [0, 100] 范围内的值的二元素行向量

百分位数阈值，指定为元素在区间 [0, 100] 内的二元素行向量。第一个元素表示下百分位数阈值，第二个元素表示上百分位数阈值。threshold 的第一个元素必须小于第二个元素。

例如，[10 90] 阈值将离群值定义为低于第 10 个百分位数或高于第 90 个百分位数的点。

`movmethod` — 移窗法
`"movmedian"` | `"movmean"`

用来检测离群值的移窗法，指定为下列方法之一。

方法	描述
`"movmedian"`	离群值定义为在 `window` 指定的窗口长度内，与局部中位数相差超过三倍局部换算 MAD 的元素。此方法也称为汉佩尔滤波器。
`"movmean"`	离群值定义为在 `window` 指定的窗口长度内，与局部均值相差超过三倍局部标准差的元素。

`window` — 窗长度
正整数标量 | 由正整数组成的二元素向量 | 正持续时间标量 | 由正持续时间组成的二元素向量

窗长度，指定为正整数标量、由正整数组成的二元素向量、正持续时间标量或由正持续时间组成的二元素向量。

如果 window 是正整数标量，则窗口以当前元素为中心并且包含 window-1 个相邻元素。如果 window 是偶数，则窗口以当前元素和上一个元素为中心。

如果 window 是由正整数组成的二元素向量 [b f]，则窗口包含当前元素、其之前的 b 个元素和之后的 f 个元素。

当 A 是时间表或者 SamplePoints 被指定为 datetime 或 duration 向量时，window 的类型必须是 duration，而且将会基于样本点来计算窗口。

有关窗位置的详细信息，请参阅移动窗大小。

`dim` — 要删除离群值的维度
1 (默认) | 2

要删除离群值的维度，指定为 1 或 2。rmoutliers 始终在输入数据的每个矩阵列或表变量中检测离群值。

默认情况下，rmoutliers 删除包含一个检测到的离群值的每行。要删除每个包含检测到的离群值的矩阵列或表变量，请将维度指定为 2。

名称-值参数

全部展开

将可选参量对组指定为 Name1=Value1,...,NameN=ValueN，其中 Name 是参量名称，Value 是对应的值。名称-值参量必须出现在其他参量之后，但对各个参量对组的顺序没有要求。

示例: rmoutliers(A,ThresholdFactor=4)

数据选项

全部展开

`SamplePoints` — 采样点
向量 | 表变量名称 | 标量 | 函数句柄 | 表 `vartype` 下标

采样点，指定为由采样点值组成的向量或下表中的选项之一（当输入数据为表时）。样本点代表数据的 x 轴位置，必须为有序且包含唯一的元素。采样点不需要均匀采样。向量 [1 2 3 ...] 是默认值。

当输入数据是表时，可以使用以下选项之一将采样点指定为表变量。

索引方案示例

索引方案	示例
变量名称：字符串标量或字符向量	`"A"` 或 `'A'` - 名为 `A` 的变量
变量索引：引用变量在表中位置的索引编号逻辑向量。通常，此向量的长度与变量的数目相同，但可以省略尾部的 `0` 或 `false` 值	`3` - 表中的第三个变量 `[false false true]` - 第三个变量
函数句柄：函数句柄，以表变量作为输入并返回逻辑标量	`@isnumeric` - 一个包含数值的变量
变量类型： `vartype` 下标，用于选择一个指定类型的变量	`vartype("numeric")` - 一个包含数值的变量

变量名称：

字符串标量或字符向量

"A" 或 'A' - 名为 A 的变量

变量索引：

引用变量在表中位置的索引编号
逻辑向量。通常，此向量的长度与变量的数目相同，但可以省略尾部的 0 或 false 值

3 - 表中的第三个变量
[false false true] - 第三个变量

函数句柄：

函数句柄，以表变量作为输入并返回逻辑标量

@isnumeric - 一个包含数值的变量

变量类型：

vartype 下标，用于选择一个指定类型的变量

vartype("numeric") - 一个包含数值的变量

注意

当输入数据为 timetable 时，不支持此名称-值参量。时间表使用行时间向量作为采样点。要使用不同采样点，您必须编辑时间表，以便行时间包含所需的采样点。

移动窗基于采样点进行定义。例如，如果 t 是与输入数据对应的时间向量，则 rmoutliers(rand(1,10),"movmean",3,"SamplePoints",t) 将有一个代表 t(i)-1.5 和 t(i)+1.5 之间时间间隔的窗。

当采样点向量的数据类型为 datetime 或 duration 时，移动窗长度的类型必须为 duration。

示例: rmoutliers(A,SamplePoints=0:0.1:10)

示例: rmoutliers(T,SamplePoints="Var1")

数据类型: single | double | datetime | duration

`DataVariables` — 要对其进行操作的表变量
表变量名称 | 标量 | 向量 | 元胞数组 | 模式 | 函数句柄 | 表 `vartype` 下标

要对其进行操作的表变量，指定为下表中的选项之一。DataVariables 值指示要检查输入表中的哪些变量具有离群值。与指示的变量关联的数据类型必须为 double 或 single。

表中未由 DataVariables 指定的其他变量将传递给输出，而不检查离群值。

对 A 的行执行运算时，rmoutliers 将删除在与指定的变量对应的列中包含离群值的所有行。对 A 的列执行运算时，rmoutliers 将从表中删除指定的变量。

索引方案	要指定的值	示例
变量名称	字符串标量或字符向量字符串数组或字符向量元胞数组 `pattern` 对象	`"A"` 或 `'A'` - 名为 `A` 的变量 `["A" "B"]` 或 `{'A','B'}` - 两个名为 `A` 和 `B` 的变量 `"Var"+digitsPattern(1)` - 变量名为 `"Var"` 后跟一个数字
变量索引	引用变量在表中位置的索引编号由数字组成的向量一个 `logical` 向量。通常，此向量的长度与变量的数目相同，但可以省略尾部的 `0` (`false`) 值。	`3` - 表中的第三个变量 `[2 3]` - 表中的第二个和第三个变量 `[false false true]` - 第三个变量
函数句柄	函数句柄，以表变量作为输入并返回 `logical` 标量	`@isnumeric` - 所有包含数值的变量
变量类型：	`vartype` 下标，用于选择指定类型的变量	`vartype("numeric")` - 所有包含数值的变量

示例: rmoutliers(T,DataVariables=["Var1" "Var2" "Var4"])

离群值检测选项

全部展开

`ThresholdFactor` — 检测阈值因子
非负标量

检测阈值因子，指定为非负标量。

对于方法 "median" 和 "movmedian"，检测阈值因子将代替换算 MAD 的倍数（默认为 3）。

对于方法 "mean" 和 "movmean"，检测阈值因子将取代与均值相差的标准差个数（默认为 3）。

对于方法 "grubbs" 和 "gesd"，检测阈值因子是 0 到 1 范围内的一个标量。值接近 0 会得到较少数目的离群值，值接近 1 则会得到较多数目的离群值。默认的检测阈值因子为 0.05。

对于 "quartiles" 方法，检测阈值因子将代替四分差的默认倍数（默认为 1.5）。

当指定的方法是 "percentiles" 时，不支持此名称-值对组。

`OutlierLocations` — 已知离群值指示值
逻辑向量 | 逻辑矩阵 | 表

已知离群值指示符，指定为逻辑向量或矩阵，或具有逻辑变量的表 (自 R2024b 起)。值为 1 (true) 的元素表示 A 中离群值的位置。值为 0 (false) 的元素表示非离群值。

当您指定 OutlierLocations 时，rmoutliers 将不再使用离群值检测方法。而是会用已知离群值指示符中的元素来定义离群值。如果指定 findmethod，则无法指定 OutlierLocations。

如果 OutlierLocations 是向量或矩阵，其大小必须与 A 相同。如果 OutlierLocations 是表或时间表，它必须包含与要对其进行操作的输入表变量的大小和名称相同的逻辑变量。

数据类型: logical | table | timetable

`MaxNumOutliers` — GESD 检测到的最大离群值
正整数标量

GESD 检测到的最大离群值，指定为正整数标量。MaxNumOutliers 值指定 "gesd" 方法检测到的离群值的最大数目。例如，rmoutliers(A,"gesd","MaxNumOutliers",5) 最多检测到五个离群值。

MaxNumOutliers 的默认值是最接近 A 中的元素数的 10% 的整数。为离群值数上限设置较大的值，可以更可能检测到所有离群值，但代价是降低计算效率。

"gesd" 方法假定非离群值输入数据是从近似正态分布采样的。如果数据不是以这种方式采样的，则检测的离群值数量可能会超过 MaxNumOutliers 值。

`MinNumOutliers` — 满足删除条件的最小离群值数目
1 (默认) | 正整数标量

满足删除条件的最小离群值数目，指定为正整数标量。MinNumOutliers 值指定删除行或列所需的最小离群值数。例如，当检测到某一行中有 3 个或更多离群值时，rmoutliers(A,"MinNumOutliers",3) 会删除矩阵 A 的这一行。

输出参量

全部折叠

`B` — 已删除离群值的数据
向量 | 矩阵 | 表 | 时间表

已删除离群值的数据，以向量、矩阵或具有数值变量的表或时间表形式返回。B 的大小取决于删除的行数或列数。

数据类型: double | single | table | timetable

`TFrm` — 已删除数据的指示符
标量 | 向量

已删除数据的指示符，以标量或向量形式返回。值为 1 (true) 的元素对应于 A 中删除的行或列。值为 0 (false) 的元素对应于未更改的行或列。TFrm 的方向和大小取决于 A 和操作的维度。

数据类型: logical

`TFoutlier` — 离群值指示值
向量 | 矩阵

离群值指示符，以向量或矩阵形式返回。值为 1 (true) 的元素对应于 A 中离群值的位置。值为 0 (false) 的元素对应于非离群值。

TFoutlier 的大小与 A 相同。

数据类型: logical

`L` — 下阈值
标量 | 向量 | 矩阵 | 表 | 时间表

自 R2022b 起

离群值检测方法使用的下阈值，以标量、向量、矩阵或具有数值变量的表或时间表形式返回。例如，默认离群值检测方法的下阈值是比输入数据的中位数小三倍换算 MAD 的值。

如果使用 method 进行离群值检测，则除了在运算维度上的长度为 1 外，L 在其他所有维度上的大小均与 A 相同。如果使用 movmethod，则 L 的大小与 A 相同。

`U` — 上阈值
标量 | 向量 | 矩阵 | 表 | 时间表

自 R2022b 起

离群值检测方法使用的上阈值，以标量、向量、矩阵或具有数值变量的表或时间表形式返回。例如，默认离群值检测方法的上阈值是比输入数据的中位数大三倍换算 MAD 的值。

如果使用 method 进行离群值检测，则除了在运算维度上的长度为 1 外，U 在其他所有维度上的大小均与 A 相同。如果使用 movmethod，则 U 的大小与 A 相同。

`C` — 中心值
标量 | 向量 | 矩阵 | 表 | 时间表

自 R2022b 起

离群值检测方法使用的中心值，以标量、向量、矩阵或具有数值变量的表或时间表形式返回。例如，默认离群值检测方法的中心值是输入数据的中位数。

如果使用 method 进行离群值检测，则除了在运算维度上的长度为 1 外，C 在其他所有维度上的大小均与 A 相同。如果使用 movmethod，则 C 的大小与 A 相同。

详细信息

全部折叠

移动窗大小

下表说明默认等间距样本点向量 [1 2 3 4 5 6 7] 上的窗位置。

描述	窗大小和位置	窗中的采样点
对于标量窗大小，不包括窗的左边界，但包括窗的右边界。	`window = 3` 当前采样点 = 4	3、4、5
对于标量窗大小，不包括窗的左边界，但包括窗的右边界。	`window = 4` 当前采样点 = 4	2、3、4、5
对于向量窗大小，包括窗的左边界和右边界。	`window = [2 2]` 当前采样点 = 4	2、3、4、5、6
对于输入数据端点附近的采样点，`rmoutliers` 会截断窗，使其从第一个采样点开始或在最后一个采样点结束。	`window = [2 2]` 当前采样点 = 2	1、2、3、4

替代功能

实时编辑器任务

您可以通过将清洗离群数据任务添加到实时脚本中，以交互方式使用 rmoutliers 功能。

Clean Outlier Data task in the Live Editor

扩展功能

全部展开

tall 数组
对行数太多而无法放入内存的数组进行计算。

rmoutliers 函数支持 tall 数组，但存在以下使用说明和限制：

不支持 "percentiles"、"grubbs" 和 "gesd" 方法。
"movmedian" 和 "movmean" 方法不支持 tall 时间表。
不支持 SamplePoints 和 MaxNumOutliers 名称-值参量。
DataVariables 的值不能是函数句柄。
OutlierLocations 的值不能为表或时间表。
仅当 A 为 tall 列向量时，才支持沿第一个维度计算 rmoutliers(A)、rmoutliers(A,"median",...) 或 rmoutliers(A,"quartiles",...)。
tall 表不支持 rmoutliers(A,2)。

有关详细信息，请参阅 tall 数组。

C/C++ 代码生成
使用 MATLAB® Coder™ 生成 C 代码和 C++ 代码。

用法说明和限制：

用于检测离群值的 "movmean" 和 "movmedian" 方法不支持时间表输入数据、日期时间 SamplePoints 值或持续时间 SamplePoints 值。
对于表输入数据，dim 必须等于 1。
不支持 OutlierLocations 名称-值参量。
不支持可选的输出参量 TFoutlier、L、U 和 C。

GPU 代码生成
使用 GPU Coder™ 为 NVIDIA® GPU 生成 CUDA® 代码。

请参阅“C/C++ 代码生成”部分中的用法说明和限制。同样的用法说明和限制也适用于 GPU 代码生成。

基于线程的环境
使用 MATLAB® `backgroundPool` 在后台运行代码或使用 Parallel Computing Toolbox™ `ThreadPool` 加快代码运行速度。

rmoutliers 函数完全支持基于线程的环境。有关详细信息，请参阅在基于线程的环境中运行 MATLAB 函数。

GPU 数组
通过使用 Parallel Computing Toolbox™ 在图形处理单元 (GPU) 上运行来加快代码执行。

rmoutliers 函数支持 GPU 数组输入，但有以下用法说明和限制：

使用移窗法 "movmean" 或 "movmedian" 检测离群值时，不支持 SamplePoints 名称-值参量。
不支持 DataVariables 名称-值参量。

有关详细信息，请参阅在 GPU 上运行 MATLAB 函数 (Parallel Computing Toolbox)。

版本历史记录

在 R2018b 中推出

全部展开

R2024b: 将离群值位置定义为表

通过将 OutlierLocations 名称-值参量指定为包含输入表中具有名称的逻辑变量的表，定义离群值的位置。

R2022b: 返回离群值指示符、下阈值、上阈值和中心值

您可以选择返回与输入数据中离群值位置对应的逻辑离群值指示符。您还可以返回离群值检测方法使用的下阈值、上阈值和中心值。

R2022b: 定义离群值位置

使用已知的离群值指示符定义输入数据中离群值的位置。您可以通过将 OutlierLocations 名称-值参量设置为与输入数据大小相同的逻辑数组来定义离群值位置，而不是使用离群值检测方法。

如果指定了 method，则不能再指定 OutlierLocations 名称-值参量。

R2021b: 将采样点指定为表变量

对于表输入数据，可以使用 SamplePoints 名称-值参量将采样点指定为表变量。

rmoutliers

语法

说明

示例

向量中的离群值

使用均值检测方法

使用移窗检测法

查找已删除离群值的值

删除包含离群值的列

指定离群值位置

可视化离群值阈值

删除表中高于标量阈值的值

输入参数

A — 输入数据 向量 | 矩阵 | 表 | 时间表

method — 检测离群值的方法 "median" (默认) | "mean" | "quartiles" | "grubbs" | "gesd"

threshold — 百分位数阈值 包含 [0, 100] 范围内的值的二元素行向量

movmethod — 移窗法 "movmedian" | "movmean"

window — 窗长度 正整数标量 | 由正整数组成的二元素向量 | 正持续时间标量 | 由正持续时间组成的二元素向量

dim — 要删除离群值的维度 1 (默认) | 2

名称-值参数

数据选项

SamplePoints — 采样点 向量 | 表变量名称 | 标量 | 函数句柄 | 表 vartype 下标

DataVariables — 要对其进行操作的表变量 表变量名称 | 标量 | 向量 | 元胞数组 | 模式 | 函数句柄 | 表 vartype 下标

离群值检测选项

ThresholdFactor — 检测阈值因子 非负标量

OutlierLocations — 已知离群值指示值 逻辑向量 | 逻辑矩阵 | 表

MaxNumOutliers — GESD 检测到的最大离群值 正整数标量

MinNumOutliers — 满足删除条件的最小离群值数目 1 (默认) | 正整数标量

输出参量

B — 已删除离群值的数据 向量 | 矩阵 | 表 | 时间表

TFrm — 已删除数据的指示符 标量 | 向量

TFoutlier — 离群值指示值 向量 | 矩阵

L — 下阈值 标量 | 向量 | 矩阵 | 表 | 时间表

U — 上阈值 标量 | 向量 | 矩阵 | 表 | 时间表

C — 中心值 标量 | 向量 | 矩阵 | 表 | 时间表

详细信息

移动窗大小

替代功能

实时编辑器任务

扩展功能

tall 数组 对行数太多而无法放入内存的数组进行计算。

C/C++ 代码生成 使用 MATLAB® Coder™ 生成 C 代码和 C++ 代码。

GPU 代码生成 使用 GPU Coder™ 为 NVIDIA® GPU 生成 CUDA® 代码。

基于线程的环境 使用 MATLAB® backgroundPool 在后台运行代码或使用 Parallel Computing Toolbox™ ThreadPool 加快代码运行速度。

GPU 数组 通过使用 Parallel Computing Toolbox™ 在图形处理单元 (GPU) 上运行来加快代码执行。

版本历史记录

R2024b: 将离群值位置定义为表

R2022b: 返回离群值指示符、下阈值、上阈值和中心值

R2022b: 定义离群值位置

R2021b: 将采样点指定为表变量

另请参阅

函数

实时编辑器任务

App

主题

`A` — 输入数据
向量 | 矩阵 | 表 | 时间表

`method` — 检测离群值的方法
`"median"` (默认) | `"mean"` | `"quartiles"` | `"grubbs"` | `"gesd"`

`threshold` — 百分位数阈值
包含 [0, 100] 范围内的值的二元素行向量

`movmethod` — 移窗法
`"movmedian"` | `"movmean"`

`window` — 窗长度
正整数标量 | 由正整数组成的二元素向量 | 正持续时间标量 | 由正持续时间组成的二元素向量

`dim` — 要删除离群值的维度
1 (默认) | 2

`SamplePoints` — 采样点
向量 | 表变量名称 | 标量 | 函数句柄 | 表 `vartype` 下标

`DataVariables` — 要对其进行操作的表变量
表变量名称 | 标量 | 向量 | 元胞数组 | 模式 | 函数句柄 | 表 `vartype` 下标

`ThresholdFactor` — 检测阈值因子
非负标量

`OutlierLocations` — 已知离群值指示值
逻辑向量 | 逻辑矩阵 | 表

`MaxNumOutliers` — GESD 检测到的最大离群值
正整数标量

`MinNumOutliers` — 满足删除条件的最小离群值数目
1 (默认) | 正整数标量

`B` — 已删除离群值的数据
向量 | 矩阵 | 表 | 时间表

`TFrm` — 已删除数据的指示符
标量 | 向量

`TFoutlier` — 离群值指示值
向量 | 矩阵

`L` — 下阈值
标量 | 向量 | 矩阵 | 表 | 时间表

`U` — 上阈值
标量 | 向量 | 矩阵 | 表 | 时间表

`C` — 中心值
标量 | 向量 | 矩阵 | 表 | 时间表

tall 数组
对行数太多而无法放入内存的数组进行计算。

C/C++ 代码生成
使用 MATLAB® Coder™ 生成 C 代码和 C++ 代码。

GPU 代码生成
使用 GPU Coder™ 为 NVIDIA® GPU 生成 CUDA® 代码。

基于线程的环境
使用 MATLAB® `backgroundPool` 在后台运行代码或使用 Parallel Computing Toolbox™ `ThreadPool` 加快代码运行速度。

GPU 数组
通过使用 Parallel Computing Toolbox™ 在图形处理单元 (GPU) 上运行来加快代码执行。