cdfplot(x)
hold on
x_values = linspace(min(x),max(x));
plot(x_values,normcdf(x_values,0,1),'r-')
legend('Empirical CDF','Standard Normal CDF','Location','best')

Figure contains an axes object. The axes object with title Empirical CDF, xlabel x, ylabel F(x) contains 2 objects of type line. These objects represent Empirical CDF, Standard Normal CDF.

图窗显示中心化并缩放的数据向量的经验 cdf 与标准正态分布的 cdf 之间的相似性。

使用两列矩阵指定假设分布

打开实时脚本

加载样本数据。创建包含学生考试成绩数据的第一列的向量。

load examgrades;
x = grades(:,1);

将假设分布指定为一个两列矩阵。第 1 列含数据向量 x。第 2 列包含在假设的 Student $t$ 分布的 x 中的每个值处计算的 cdf 值，位置参数为 75，尺度参数为 10，自由度为 1。

test_cdf = [x,cdf('tlocationscale',x,75,10,1)];

检验数据是否来自假设的分布。

h = kstest(x,'CDF',test_cdf)

h = logical
   1

返回值 h = 1 表明 kstest 在默认的 5% 显著性水平上拒绝了原假设。

使用概率分布对象指定假设分布

打开实时脚本

加载样本数据。创建包含学生考试成绩数据的第一列的向量。

load examgrades;
x = grades(:,1);

创建一个概率分布对象来检验数据是否来自某 Student $t$ 分布，其位置参数为 75，尺度参数为 10，自由度为 1。

test_cdf = makedist('tlocationscale','mu',75,'sigma',10,'nu',1);

检验原假设，即数据来自假设分布。

h = kstest(x,'CDF',test_cdf)

h = logical
   1

返回值 h = 1 表明 kstest 在默认的 5% 显著性水平上拒绝了原假设。

在不同显著性水平上检验假设

打开实时脚本

加载样本数据。创建包含学生考试成绩的第一列的向量。

load examgrades;
x = grades(:,1);

创建一个概率分布对象来检验数据是否来自某 Student $t$ 分布，其位置参数为 75，尺度参数为 10，自由度为 1。

test_cdf = makedist('tlocationscale','mu',75,'sigma',10,'nu',1);

在 1% 的显著性水平上检验原假设，即数据来自假设分布。

[h,p] = kstest(x,'CDF',test_cdf,'Alpha',0.01)

h = logical
   1

p = 
0.0021

返回值 h = 1 表示 kstest 在 1% 显著性水平上拒绝了原假设。

执行单边假设检验

打开实时脚本

加载样本数据。创建一个包含股票收益数据矩阵第三列的向量。

load stockreturns;
x = stocks(:,3);

检验原假设，即数据来自标准正态分布；对立的备择假设为数据的总体 cdf 大于标准正态 cdf。

[h,p,k,c] = kstest(x,'Tail','larger')

h = logical
   1

p = 
5.0854e-05

k = 
0.2197

c = 
0.1207

返回值 h = 1 表明 kstest 在默认的 5% 显著性水平上拒绝了原假设，而支持备择假设。

绘制经验 cdf 和标准正态 cdf，以便进行直观比较。

[f,x_values] = ecdf(x);
J = plot(x_values,f);
hold on;
K = plot(x_values,normcdf(x_values),'r--');
set(J,'LineWidth',2);
set(K,'LineWidth',2);
legend([J K],'Empirical CDF','Standard Normal CDF','Location','SE');

Figure contains an axes object. The axes object contains 2 objects of type line. These objects represent Empirical CDF, Standard Normal CDF.

绘图显示数据向量 x 的经验 cdf 和标准正态分布的 cdf 之间的差异。

输入参数

全部折叠

`x` — 样本数据
向量

样本数据，指定为向量。

数据类型: single | double

名称-值参数

全部折叠

将可选参量对组指定为 Name1=Value1,...,NameN=ValueN，其中 Name 是参量名称，Value 是对应的值。名称-值参量必须出现在其他参量之后，但对各个参量对组的顺序没有要求。

在 R2021a 之前，使用逗号分隔每个名称和值，并用引号将 Name 引起来。

示例: 'Tail','larger','Alpha',0.01 指定使用备择假设的检验，即抽取样本数据的总体的 cdf 大于假设分布的 cdf（在 1% 的显著性水平上进行）。

`Alpha` — 显著性水平
`0.05` (默认) | 范围 (0,1) 内的标量值

假设检验的显著性水平，指定为以逗号分隔的对组，其中包含 'Alpha' 和范围 (0,1) 内的一个标量值。

示例: 'Alpha',0.01

数据类型: single | double

`CDF` — 假设连续分布的 cdf
矩阵 | 概率分布对象

假设连续分布的 cdf，指定为名称-值参量（由 'CDF' 和两列矩阵或连续概率分布对象组成）。当 CDF 是矩阵时，第 1 列包含一组可能的 x 值，第 2 列包含对应的假设累积分布函数值 G(x)。如果指定了 CDF，使得第 1 列包含数据向量 x 中的值，则计算效率最高。如果 x 中有在 CDF 的第 1 列中找不到的值，则 kstest 通过插值逼近 G(x)。x 中的所有值都必须位于 CDF 的第一列中最小值和最大值之间的区间内。默认情况下，kstest 检验标准正态分布。

单样本柯尔莫哥洛夫-斯米尔诺夫检验仅对连续累积分布函数有效，并且需要预先确定 CDF。如果根据数据估计 CDF，则结果不准确。要在不指定分布参数的情况下检验 x 是否遵循正态分布、对数正态分布、极值分布、威布尔分布或指数分布，请改用 lillietest。

数据类型: single | double

`Tail` — 备择假设的类型
`'unequal'` (默认) | `'larger'` | `'smaller'`

要计算的备择假设的类型，指定为以逗号分隔的对组，其中包含 'Tail' 和下列各项之一。

`'unequal'`	检验备择假设，即从中抽取 `x` 的总体的 cdf 不等于假设分布的 cdf。
`'larger'`	检验备择假设，即从中抽取 `x` 的总体的 cdf 大于假设分布的 cdf。
`'smaller'`	检验备择假设，即从中抽取 `x` 的总体的 cdf 小于假设分布的 cdf。

如果数据向量 x 中的值趋向于大于假设分布的预期值，则 x 的经验分布函数趋向于较小，反之亦然。

示例: 'Tail','larger'

输出参量

全部折叠

`h` — 假设检验结果
`1` | `0`

假设检验结果，以逻辑值形式返回。

如果 h = 1，这表明在 Alpha 显著性水平上拒绝原假设。
如果 h = 0，这表明未能在 Alpha 显著性水平上拒绝原假设。

`p` — p 值
范围 [0,1] 内的标量值

检验的 p 值，以 [0,1] 范围内的标量值形式返回。p 是观测到的检验统计量与原假设下观测到的值一样极端或更极端的概率。较小的 p 值表示原假设可能无效。

`ksstat` — 检验统计量
非负标量值

假设检验的检验统计量，以非负标量值形式返回。

`cv` — 临界值
非负标量值

临界值，以非负标量值形式返回。

详细信息

全部折叠

单样本柯尔莫哥洛夫-斯米尔诺夫检验

单样本柯尔莫哥洛夫-斯米尔诺夫检验是原假设（即数据的总体 cdf 等于假设的 cdf）的非参数化检验。

“不相等”cdf 函数的双侧检验用于检验原假设，对立的备择假设是数据的总体 cdf 不等于假设的 cdf。检验统计量是根据 x 计算的经验 cdf 和假设 cdf 之间的最大绝对差：

$D^{*} = \max_{x} (| \hat{F} (x) - G (x) |),$

其中 $\hat{F} (x)$ 是经验 cdf， $G (x)$ 是假设分布的 cdf。

“较大”cdf 函数的单侧检验用于检验原假设，对立的备择假设是数据的总体 cdf 大于假设的 cdf。检验统计量是根据 x 计算的经验 cdf 超出假设 cdf 的最大量：

$D^{*} = \max_{x} (\hat{F} (x) - G (x)) .$

“较小”cdf 函数的单侧检验用于检验原假设，对立的备择假设是数据的总体 cdf 小于假设的 cdf。检验统计量是假设 cdf 超出根据 x 计算的经验 cdf 的最大量：

$D^{*} = \max_{x} (G (x) - \hat{F} (x)) .$

kstest 使用逼近公式或表中的插值计算临界值 cv。对于双侧检验，公式和表涵盖范围 0.01 ≤ alpha ≤ 0.2，对于单侧检验，涵盖范围 0.005 ≤ alpha ≤ 0.1。如果 alpha 在此范围之外，则 cv 将以 NaN 形式返回。

算法

kstest 通过比较 p 值 p 与显著性水平 Alpha（而不是通过比较检验统计量 ksstat 与临界值 cv）决定拒绝原假设。由于 cv 是逼近值，因此将 ksstat 与 cv 进行比较，得出的结论有时不同于将 p 与 Alpha 进行比较得出的结论。

参考

[1] Massey, F. J. “The Kolmogorov-Smirnov Test for Goodness of Fit.” Journal of the American Statistical Association. Vol. 46, No. 253, 1951, pp. 68–78.

[2] Miller, L. H. “Table of Percentage Points of Kolmogorov Statistics.” Journal of the American Statistical Association. Vol. 51, No. 273, 1956, pp. 111–121.

[3] Marsaglia, G., W. Tsang, and J. Wang. “Evaluating Kolmogorov’s Distribution.” Journal of Statistical Software. Vol. 8, Issue 18, 2003.

版本历史记录

在 R2006a 之前推出

另请参阅

kstest2 | lillietest | adtest

kstest

语法

说明

示例

标准正态分布的检验

使用两列矩阵指定假设分布

使用概率分布对象指定假设分布

在不同显著性水平上检验假设

执行单边假设检验

输入参数

x — 样本数据 向量

名称-值参数

Alpha — 显著性水平 0.05 (默认) | 范围 (0,1) 内的标量值

CDF — 假设连续分布的 cdf 矩阵 | 概率分布对象

Tail — 备择假设的类型 'unequal' (默认) | 'larger' | 'smaller'

输出参量

h — 假设检验结果 1 | 0

p — p 值 范围 [0,1] 内的标量值

ksstat — 检验统计量 非负标量值

cv — 临界值 非负标量值

详细信息

单样本柯尔莫哥洛夫-斯米尔诺夫检验

算法

参考

版本历史记录

另请参阅

`x` — 样本数据
向量

`Alpha` — 显著性水平
`0.05` (默认) | 范围 (0,1) 内的标量值

`CDF` — 假设连续分布的 cdf
矩阵 | 概率分布对象

`Tail` — 备择假设的类型
`'unequal'` (默认) | `'larger'` | `'smaller'`

`h` — 假设检验结果
`1` | `0`

`p` — p 值
范围 [0,1] 内的标量值

`ksstat` — 检验统计量
非负标量值

`cv` — 临界值
非负标量值